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内 容 简 介 





本 书 是 MySQL 领 域 的 经 典 之 作 ， 拥 有 广泛 的 影响 力 。 第 3 版 更 新 了 
大 量 的 内 容 ， 不 但 涵盖 了 最 新 MySQL 5.5 版 本 的 新 特性 ， 也 讲述 了 关于 
固态 盘 、 高 可 扩展 性 设计 和 云 计算 环境 下 的 数据 库 相 关 的 新 内 容 ， 原 有 
的 基准 测试 和 性 能 优化 部 分 也 做 了 大 量 的 扩展 和 补充 。 全 书 共 分 为 16 章 
和 6 个 附录 ， 内 容 涵 六 MySQL 架 构 和 历史 ， 基 准 测 试 和 性 能 天 析 ， 数 据 
库 软 硬件 性 能 优化 ， 复 制 、 备 份 和 恢复 ， 高 可 用 与 高 可 扩展 性 ， 以 及 云 
端的 MySQL 和 MySQL 相 关 工 具 等 方面 的 内 容 。 每 一 章 都 是 相对 独立 的 
主题 ， 读 者 可 以 有 选择 性 地 单独 阅读 。 














本 书 不 但 适合 数据 库 管 理 员 (DBA) 阅读 ， 也 适合 开发 人 员 参 考 学 
习 。 不 管 是 数据 库 新 手 还 是 专家 ， 相 信者 能 从 本 书 有 所 收获 。 
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O'Reilly Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 查 研究 和 会 议 等 方式 
传播 创新 知识 。 自 1978 年 开始 ，O'Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 
推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋势 
一 一 通过 放大 那些 “细微 的 信号 ?来 刺激 社会 对 新 科技 的 应 用 。 作 为 技术 
社区 中 活跃 的 参与 者 ，OReilly 的 发 展 充满 了 对 创新 的 倡导 、 创 造 和 发 
扬 光 大 。 








O'Reilly 为 软件 开 太 人 员 带 来 草 命 性 的 “动物 书 ” 创建 第 一 个 商业 
网 站 (GNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运 
动 以 此 命名 ;创立 了 Make 杂 志 ， 从 而 成 为 DIY 革 命 的 主要 先锋 ;公司 一 
如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带。O'Reilly 的 会 议和 峰会 集 
聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革 
命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，OReilly 现 在 还 将 先锋 专家 
的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 、 在 线 服务 或 者 

















面授 课程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信 
奶 是 激发 创新 的 力量 。 
业界 评论 
“O'Reilly Radari Z A 0 Wk. ” 
一 一 Wired 


“0'Reilly 和 凭借 一 系列 〈 真 布 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 
数 百 万 美元 的 业务 。?” 





Business 2.0 
“O'Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。 
—— CRN 


“一 本 0'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主 


es 
人 | 
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Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 有 眼 于 最 长 远 、 最 广阔 的 视野 
并 且 切 实地 按照 Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 遇 到 分 路 
口 ， 走 小 路 (岔路 ) 。 ”回顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 且 
有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽 管 大 路 也 不 错 。” 


——Linux Journal 


译 者 序 


在 互联 网 行业 ，MySQL 数 据 库 毫 无 疑问 已 经 是 最 第 用 的 数据 库 。 
LAMP (Linux+Apache+MySQL+PHP) 甚至 已 经 成 为 专 有 名 词 ， 也 
是 很 多 中 小 网 站 建站 的 首选 技术 架构 。 我 所 在 的 公司 淘宝 网 ， 在 2003 年 
非典 肆虐 期 间 创 立时 ， 选 择 的 就 是 LAMP 架 构 ， 当 时 MySQL 的 版 本 还 是 
4.0。 但 是 到 了 2003 年 底 ， 由 于 业务 超 预 期 的 增长 ，MySQL 4.0《〈 当 时 用 
的 还 是 MyISAM 引 擎 ) 的 很 多 缺点 在 高 并 发 大 压力 下 暴露 了 出 来 ， 于 是 
技术 上 开始 改 用 商业 的 Oracle 数 据 库 。 随 后 几 年 Oracle 加 小 型 机 和 高 端 
存储 的 数据 库 架 构 支 撑 了 淘宝 网 业务 的 爆炸 式 增 长 ， 数 据 库 也 从 最 初 的 
两 三 个 库 增长 到 十 几 个 库 ， 并 且 每 个 库 的 硬件 已 经 逐步 升级 到 顶 
配 , “天 花 板 ”很 明显 地 摆 在 了 眼前 。 于 是 在 2008 年 ， 基 于 PC 服务 器 的 
MySQL 数 据 库 再 次 成 为 DBA 团 队 的 选择 ， 这 时 候 MySQL 的 稳定 版 本 已 
经 升级 到 5.0， 并 且 5.1 也 已 经 在 开发 中 ， 性 能 和 特性 相对 于 2003 年 的 时 
候 已 经 有 了 非常 大 的 提升 。 淘 宝 网 的 数据 库 架 构 也 逐渐 从 垂直 拆 分 走向 
水 平 拆 分 ， 在 大 规模 水 平 集群 的 架构 设计 中 ， 开 源 的 MySQL 受 到 的 关 
注 度 越 来 越 高 ， 并 且 一 年 多 来 的 实践 也 证 明了 MySQL (存储 引擎 主要 
使 用 的 是 InnoDB) 在 高 压力 下 的 可 用 性 。 于 是 从 2009 年 开始 ， 后 来 颇 
受 外 界 关 注 的 所 谓 “ 去 IOE” 开 始 实施 ， 经 过 三 年 多 的 架构 改造 ， 到 2012 
年 整个 淘宝 网 的 核心 交易 系统 已 经 全 部 运行 在 基于 PC 服务 器 的 MySQL 
数据 库 集群 中 ， 全 部 实例 数 超过 2000 个 。 今 年 的 “ 双 11” 大 促 中 ，MySQL 
单 库 经 受 了 最 高 达 6.5 万 的 QPS， 某 个 拥有 32 个 节点 的 核心 集群 的 总 QPS 
则 稳定 在 86 万 以 上 ， 并 且 在 整个 大 促 〈 包 括 之 前 三 年 的 “ 双 11” 大 促 》 期 
间 ， 数 据 库 未 发 生 过 任何 影响 大 促 的 重大 故障 。 当 然 ， 这 个 结果 ， 也 得 
益 于 淘宝 网 整个 应 用 架构 的 设计 ， 以 及 这 几 年 来 革命 性 的 闪存 设备 的 迅 


























猛 发 展 。 





2008 年 ， 淘 宝 DBA 团 队 准 备 从 Oradle 转 向 MySQL 的 时 候 ， 团 队 中 的 
大 多 数 人 对 MySQL 的 了 解 都 非常 之 少 。 当 时 国内 技术 圈 对 MySQL 的 讨 
论 也 不 多 见 ， 网 上 能 找到 的 大 多 数 中 文 资料 基本 上 关注 的 还 是 如 何 安 
装 ， 如 何 配置 主 备 复制 等 。 而 MySQL 中 文 类 的 书籍 ， 大 部 分 还 是 和 PHP 
放 在 一 起 ， 作 为 PHP 开 发 中 的 一 环 来 讲述 的 。 所 以 当 我 们 发 现 
mysqlperformanceblog.com 这 个 相当 专业 的 国外 博客 的 时 候 ， 无 不 欣喜 
莫名 。 同 时 也 知道 了 博客 的 作者 们 2008 年 出 版 的 High Performance 
MySQL 第 二 版 “中文 版 于 2010 年 1 月 出 版 ) ， 这 本 书 被 很 多 MySQL 
DBA 们 奉 为 在 泉 ， 书 的 三 位 主要 作者 Baron Schwartz. Peter Zaitsev 和 
Vadim Tkachenko 也 在 MySQL DBA 圈 中 耳熟能详 ， 他 们 组 建 的 Percona 
公司 和 Percona Server 分 支 版 本 以 及 XtraDB 存 储 引 擎 也 逐渐 为 国内 DBA 
所 熟知 。2011 年 12 月 ， 淘 宝 网 和 O'Reilly 在 北京 联合 举办 的 Velocity 
China 2011 技 术 大 会 上 ， 我 们 有 幸 邀 请 到 Percona 公 司 的 华人 专家 季 海 东 
(目前 已 离职 ) 来 介绍 MySQL 5.5 InnoDB/XtraDB 的 性 能 优化 和 诊断 方 
法 。 在 季 海 东 先 生 的 引荐 下 ， 我 们 也 和 Peter 通 过 Skype 电 话 会 议 有 过 沟 
通 ， 介 绍 了 了 MySQL 在 淘宝 的 应 用 情况 ， 我 们 对 MySQL 一 些 特性 的 需 
求 ， 以 及 对 MySQL 做 的 一 些 patch， 并 随后 保持 了 密切 的 邮件 联系 。 有 
了 这 些 铺垫 ， 我 们 对 于 在 生产 系统 中 采用 Percona Server 5.5 也 有 了 更 大 
的 信心 ， 如 今 已 有 超过 1000 个 Percona Server 5.5 的 实例 在 线 上 运行 。 所 
以 今年 上 半年 电子 工业 出 版 社 的 张 春 雨 〈 侠 少 ) 编辑 找到 我 来 翻译 本 书 
的 第 三 版 的 时 候 ， 很 是 激动 ， 一 口 应 承 。 


考虑 到 这 么 经 典 的 书 应 该 尽快 地 和 读者 见面 ， 故 此 我 邀请 了 团队 中 
的 MYSQL 专家 周 振兴 《〈 花 名 : 苏 普 ) . BAW RE GEA: 印 
PL). AE CHE: AP 一 起 来 翻译 。 其 中 ， 我 负 贡 前 、 推 荐 序 和 第 


1、2、3 章 ， 周 振兴 负责 第 5、6、7 章 ， 彭 立 勋 负责 第 4、8、9、14 章 ， 
#2 EMO. 11, 12, 135%, XTERM TIS. LER AIP BoP, Ie 
后 由 我 负责 统 稿 。 所 以 量 无 疑问 ， 这 本 书 是 团队 合作 的 结晶 。 虽 然 我 们 
满怀 激情 ， 但 由 于 都 是 第 一 次 参与 翻译 技术 书籍 ， 确 实 对 困难 有 些 预 佑 
不 足 ， 加 上 下 半年 为 了 准备 “ 双 11” 等 各 种 大 促 ， 需 要 在 DBA 团 队 满 负 种 
的 工作 间 隐 挤 出 个 人 时 间 ， 初 稿 出 来 后 ， 由 于 每 个 人 翻译 风格 不 太一 
致 ， 几 次 审 稿 修订 ， 也 让 本 书 的 编辑 李 云 静 和 日 涛 吃 了 不 少 吉 头 ， 在 此 
对 大 家 表示 深 深 的 感谢 ， 是 大 家 不 懈 的 努力 ， 才 使 得 本 书 能 够 顺利 地 和 
读者 见面 。 但 书 中 肯定 还 存在 不 少 问 题 ， 奶 请 读者 不 音 指 出 ， 欢 迎 大 家 
和 我 的 新 浪 微 博 http://weibo.com/NinGoo 进 行 互 动 。 














同时 还 要 感谢 本 书 第 二 版 的 译 者 们 ， 他 们 杂 熟 的 语言 技巧 给 了 我 们 
很 多 的 参考 。 也 要 感谢 帮助 审 稿 的 同事 们 ， 包 括 但 并 不 仅 限 于 张 新 铭 
GEB: BIA) . shin CEA: 张 瑞 ) . RA ew: 维 西 ) BH, 
立 勋 其 至 还 有 发动 了 他 女 朋 友 加 入 到 审 称 工 作 中 ， 在 此 一 并 表示 感谢 。 当 
然 ， 最 后 还 要 感谢 我 的 妻子 Lalla， 在 我 占用 了 大 量 周末 时 间 的 时 候 能 够 
给 予 支 持 ， 并 承担 了 全 部 的 家 务 ， 让 我 以 译 书 为 借口 这 无 心理 负担 地 偷 
懒 。 
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推荐 序 

很 多 年 前 我 就 是 这 本 书 的 “ 汾 丝 ”了 ， 这 是 一 本 伟大 的 书 ， 第 三 版 尤 
其 如 此 。 这 些 世界 级 的 专家 不 仅仅 分 享 他 们 的 专业 知识 ， 也 花 了 很 多 时 
间 来 更 新 和 添加 新 的 章节 ， 且 都 是 高 品质 的 内 容 。 本 书 有 大 量 关 于 如 何 
获得 MySQL 高 性 能 的 细节 信息 ， 并 且 关 注 的 是 提升 性 能 的 过 程 ， 而 不 
仅仅 是 描述 事实 结果 和 珊 雁 的 细 校 末节。 这 本 书 将 告诉 读者 如 何 将 事情 
做 得 更 好 ， 不 管 MySQL 在 不 同 版 本 中 的 行为 有 多 么 大 的 改变 。 

















毫 无 疑问 ， 本 书 的 作者 是 唯一 有 资格 来 写 这 么 一 本 书 的 人 ， 他 们 经 
验 丰 定 ， 有 合理 的 方法 ， 关 注 效 率 ， 并 且 精 益 求 精 。 说 到 经 验 丰 定 ， 本 
书 的 作者 已 经 在 MySQL 性 能 领域 工作 多 年 ， 从 MySQL 还 没有 什么 可 扩 
展 性 和 可 测量 性 的 时 代 ， 直 到 现在 这 些 方面 已 经 有 了 长 足 的 进步 。 而 说 
到 合理 的 方法 ， 他 们 简直 把 这 件 事 情 当 成 了 科学 ， 首 先 定义 需要 解决 的 
问题 ， 然 后 通过 合理 的 猜测 和 精确 的 测量 来 解决 问题 。 











我 对 作者 在 效率 方面 的 关注 尤 其 印象 深刻 。 作 为 顾问 ， 他 们 时 间 宝 
贯 。 客 户 是 按照 他 们 的 时 间 付 费 的 ， 所 以 都 希望 能 更 快 地 解决 问题 。 所 
以 本 书 作 者 定义 了 一 整套 的 流程 ， 开 发 了 很 多 的 工具 ， 让 事情 变 得 正确 
和 高 效 。 在 本 书 中 ， 作 者 详细 描述 了 这 些 流程 ， 并 且 发 布 了 工具 的 源 代 
码 。 








最 后 ， 本 书 作者 在 工作 上 一 直 精 普 求 精 。 比 如 从 吞吐 量 到 啊 应 时 间 
的 关注 ， 致 力 于 了 解 MySQL 在 新 硬件 上 的 性 能 表现 ， 追 求 新 的 技能 如 
排队 理论 对 性 能 的 影响 ， 等 等 。 





我 相信 本 书 预示 了 MySQL 的 光明 前 景 。MySQL 己 经 文 持 高 要 求 的 


工作 负载 ， 本 书 作者 也 在 努力 提升 MySQL 社 区 内 对 性 能 的 认识 。 同 

时 ， 他 们 还 直接 为 性 能 提升 做 出 了 贡献 ， 包 括 XtraDB 和 XtraBackup 。 一 
直 以 来 我 从 他 们 号 上 学 到 了 不 少 东 西 ， 也 和 希望 读者 多 人 花 点 时 间 读 读本 
书 ， 一 定 会 同样 有 上 所 收益 。 


Mark Callaghan，Facebook 软 件 工程 师 





一 一 人 一 一 人 一 

BY 后 
我 们 写 这 本 书 不 仅仅 是 为 了 满足 MySQL 应 用 开发 者 的 需求 ， 也 是 
为 了 满足 MySQL 数 据 库 管理 员 的 需要 。 我 们 假定 读者 已 经 有 了 一 定 的 


MySQL 基 础 。 我 们 还 假定 读者 对 于 系统 管理 、 网 络 和 类 Unix 的 操作 系 
统 都 有 一 些 了 解 。 











本 书 的 第 二 版 为 读者 提供 了 大 量 的 信息 ， 但 没有 一 本 书 是 可 以 涵盖 
一 个 主题 的 所 有 方面 的 。 在 第 三 版 和 第 三 版 之 间 的 这 段 时 间 里 ， 我 们 记 
录 了 数 以 干 计 有 趣 的 问题 ， 其 中 有 些 是 我 们 解决 的 ， 也 有 一 些 是 我 们 观 
守 到 其 他 人 解决 的 。 当 我 们 在 规划 第 三 版 的 时 候 发 现 ， 如 果 要 把 这 些 主 
题 完 全 履 盖 ， 可 能 三 千 页 到 五 千 页 的 篇 幅 都 还 不 够 ， 这 样本 书 的 完成 就 
遥遥 无 期 了 。 在 反思 这 个 问题 后 ， 我 们 意识 到 第 二 版 强调 的 广泛 的 黎 关 
度 事实 上 有 其 自身 的 限制 ， 从 某 种 意义 上 来 说 也 没有 引导 读者 如 何 按照 
MySQL 的 方式 来 思考 问题 。 

















所 以 第 三 版 和 第 二 版 的 关注 点 有 很 大 的 不 同 。 我 们 虽然 还 是 会 包含 
很 多 的 信息 ， 并 且 会 强调 同样 的 诸如 可 靠 性 和 正确 性 的 目标 ， 但 我 们 也 
会 在 本 书 中 尝试 更 深入 的 讨论 : 我 们 会 指出 MySQL 为 什么 会 这 样 做 ， 
而 不 是 MySQL 做 了 什么 。 我 们 会 使 用 更 多 的 演示 和 案例 学 习 来 将 上 述 
原则 落地 。 通 过 这 样 的 方式 ， 我 们 希望 能 够 尝试 回 到 下 面 这 样 的 问 
题 : “给 出 MySQL 的 内 部 结构 和 操作 ， 对 于 实际 应 用 能 带 来 什么 帮助 ? 
为 什么 能 有 这 样 的 帮助 ? 如何 让 MySQL 适 合 〈 或 者 不 适合 ) 特定 的 需 
求 





最 后 ， 我 们 希望 天 于 MySQL 内 部 原理 的 知识 能 够 帮助 大 家 解决 本 
书 没 有 和 窗 盖 到 的 一 些 情况 。 我 们 更 希望 读者 能 培养 及 现 新 问题 的 洞察 





力 ， 能 学 习 和 实践 合理 的 方式 来 设计 、 维 护 和 诊断 基于 MySQL 的 系 
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本 书 是 如 何 组 织 的 


本 书 涵盖 了 许多 复杂 的 主题 。 在 这 里 ， 我 们 将 解释 一 下 是 如 何 将 这 
些 主题 有 序 地 组 织 在 一 起 的 ， 以 便于 阅读 和 和 学习。 


概述 


第 1 章 是 非常 基础 的 一 章 ， 在 更 深入 地 学 习 之 前 建议 先 熟悉 一 下 这 
部 分 内 容 。 在 有 效 地 使 用 MySQL 之 前 应 当 理 解 它 是 如 何 组织 的 。 本 章 
解释 了 MySQL 的 架构 及 其 存储 引擎 的 关键 设计 。 如 果 读 者 还 不 太 熟 悉 
关系 数据 库 和 事务 的 基础 知识 ， 本 章 也 可 以 带 来 一 点 帮助 。 如 果 之 前 已 
经 对 其 他 关系 数据 库 如 Oracle 比 较 熟 悉 ， 本 章 也 可 以 帮助 读者 了 解 
MySQL 的 入 门 知识 。 本 章 还 包括 了 一 点 MySQL 的 历史 背景 : MySQL 随 
着 时 间 的 演进 、 最 近 的 公司 所 有 权 更 奉 ， 以 及 我 们 认为 比较 重要 的 内 














打造 坚实 的 基础 


本 书 前 儿 音 的 内 容 在 今后 使 用 MYSQL 的 过 程 中 可 能 会 被 不断 地 引 
用 到 ， 它 们 是 非常 基 础 的 内 容 。 








第 2 章 讨 论 了 基准 测试 的 基础 ， 例 如 服务 颖 可 以 处 理 的 工作 负载 的 
类 型 、 处 理 特定 任务 的 速度 等 。 基 准 测 试 是 一 项 至 关 重 要 的 技能 ， 可 用 
于 评估 服务 器 在 不 同 负 载 下 的 表现 ， 但 也 要 明日 在 什么 情况 下 基准 训 试 
不 能 发 挥 作用 。 








第 3 章 介 绍 了 我 们 利用 于 故障 诊断 和 服务 器 性 能 问题 分 析 的 一 种 面 
同 啊 应 时 间 的 方法 。 该 方法 已 经 被 证 明 可 以 解决 我 们 曾 碰 到 过 的 一 些 极 
为 坏 手 的 问题 。 当 然 也 可 以 选择 修改 我 们 所 使 用 的 方法 《〈 实 际 上 我 们 的 
方法 也 是 从 Cary ”Millsap 的 方法 修改 而 来 的 ) ， 但 无 论 如 何 ， 至 少 不 能 
没有 方法 胡乱 猜测 。 








从 第 4 章 到 第 6 章 ， 连 续 介 绍 了 三 个 关于 恨 好 的 数据 库 逻 辑 设计 和 物 
理 设 计 基 础 的 话题 。 第 4 章 涵 盖 了 不 同 数据 类 型 的 细 市 差别 以 及 表 设 计 
的 原则 。 第 5 章 则 展开 讨论 了 索引 ， 这 是 数据 库 的 物理 设计 。 对 于 索引 
的 深入 理解 和 利用 是 高 效 使 用 MySQL 的 基础 ， 相 信 这 一 章 会 经 单 需要 
回头 翻 看 。 而 第 6 章 则 包含 了 分 析 MySQL 的 查询 是 如 何 执行 的 ， 以 及 如 
何 利 用 查询 优化 器 的 话题 。 该 章 也 包含 了 大 量 常 见 类 型 查询 的 例子 ， 演 
示 了 MySQL 是 如 何 做 好 工作 的 ， 以 及 如 何 改 写 碍 询 以 利用 MySQL 的 特 
te. 























FEWE, CAA te KATARE: 表 、 索 引 、 数 据 和 
查询 。 第 7 章 则 在 MySQL 基 础 知识 之 外 介绍 了 MySQL 的 高 级 特性 是 如 何 
工作 的 。 这 章 的 内 容 包 括 分 区 、 存 储 引 擎 、 和 触发 器 ， 以 及 字符 集 。 
MySQL 中 这 些 特性 的 实现 可 能 不 同 于 其 他 数据 库 ， 可 能 之 前 读者 并 不 
清楚 这 些 不 同 ， 因 此 理解 它们 对 于 性 能 可 能 会 带 来 新 的 收益 。 


配置 应 用 程序 


接 下 来 的 两 章 讲述 的 是 如 何 让 MySQL、 应 用 程序 及 硬件 一 起 很 好 
地 工作 。 第 8 章 介 绍 了 如 何 配 置 MySQL， 以 便 更 好 地 利用 硬件 ， 达 到 更 
好 的 可 靠 性 和 和 鲁 棒 性 。 第 9 章 解 释 了 如 何 让 操作 系统 和 硬件 工作 得 更 
好 。 另 外 也 深入 讨论 了 固态 硬盘 ， 为 高 可 扩展 性 应 用 发 挥 更 好 的 性 能 提 














供 了 硬件 配置 的 建议 。 


上 面 两 章 都 一 定 程度 地 涉及 了 MySQL 的 内 部 知识 。 这 将 会 是 一 个 
反复 出 现 的 主题 ， 附 录 中 也 会 有 相关 内 容 可 以 学 习 到 MySQL 的 内 部 是 
如 何 实 现 的， 理解 了 这 些 知识 将 帮助 读者 更 好 地 理解 条 些 现象 背后 的 原 
Hs 


作为 基础 设施 组 件 的 MySQL 
MySQL 不 是 存在 于 真空 中 的 ， 而 是 应 用 整体 的 一 个 环节 ， 因 此 需 


要 考虑 整个 应 用 架构 的 鲁 棒 性 。 下 面 的 章节 将 告诉 我 们 该 如 何 做 到 这 一 
Frio 











第 10 章 讨论 了 MySQL 的 杀手 级 特性 : 能 够 设置 多 个 服务 顺从 一 合 
主 服 务 器 同步 数据 。 不 幸 的 是 ， 复 制 可 能 也 是 MYSQL 给 很 多 用 户 带 来 
困扰 的 一 个 特性 。 但 实际 上 不 应 该 发 生 这 样 的 情况 ， 本 章 将 告诉 你 如 何 
让 复制 运行 得 更 好 。 











第 11 章 讨论 了 什么 是 可 扩展 性 (这 和 性 能 不 是 一 回 事 ) ， 应 用 和 系 
统 为 什么 会 无 法 扩展 ， 该 怎么 改善 扩展 性 。 如 果 能 够 正确 地 处 理 ， 
MySQL 的 可 扩展 性 是 足以 应 付 任 何 需求 的 。 第 12 章 讲述 的 是 和 可 扩展 
性 相关 但 又 完全 不 同 的 主题 : 如 何 保障 MySQL 稳 定 而 正确 地 持续 运 
行 。 第 13 章 将 告诉 你 当 MySQL 在 云 计 算 环 境 中 运行 时 会 有 什么 不 同 的 
事情 发 生 。 第 14 章 解释 了 什么 是 全 方位 的 优化 〈full-stack 
optimization) ， 束 是 从 前 端 到 后 端的 整体 优化 ， 从 用 户 体 验 开 始 直 到 数 
据 库 。 

















即使 是 世界 上 设计 最 好 、 最 具 可 扩展 性 的 架构 ， 如 宋 停 电 会 导致 彻 


底 崩 沉 ， 无 法 抵御 恶意 攻击 ， 解 决 不 了 应 用 的 bug 和 程序 员 的 错误 ， 以 

及 其 他 一 些 灾难 场景 ， 那 束 不 是 什么 好 的 架构 。 第 15 章 讨论 MySQL 

数据 库 各 种 备份 与 恢复 的 场景 。 这 些 策略 可 以 帮助 读者 减少 在 各 种 不 可 
抗 的 硬件 失效 时 的 宕 机 时 间 ， 保 证 在 各 种 灾难 下 的 数据 最 终 可 恢复 。 


其 他 有 用 的 主题 


在 本 书 的 最 后 一 章 以 及 附录 中 ， 我 们 探讨 了 一 些 无 法 明确 地 放 到 前 
面 章节 的 内 容 ， 以 及 一 些 被 前 面 多 个 章节 引用 而 需要 特别 注意 的 主题 。 











第 16 章 探索 了 一 些 可 以 帮助 用 户 更 有 效 地 管理 和 监控 MySQL 服 务 
器 的 工具 ， 有 些 是 开源 的 ， 也 有 些 是 商业 的 。 





附录 A 介 绍 了 近年 来 成 长 迅速 的 三 个 主要 的 非 MySQL 官 方 版 本 ， 其 
中 一 个 是 我 们 公司 在 维护 的 产品 。 知 道 还 有 其 他 什么 是 可 用 的 选择 是 有 
价值 的 ;很 多 MySQL 难 以 解决 的 坏 手 问题 在 其 他 的 变种 版 本 中 说 不 定 
就 不 是 问题 了 。 这 三 个 版 本 中 的 两 个 (Percona ”Server 和 MariaDB) 是 
MySQL 的 完全 可 痊 换 版 本 ， 所 以 尝试 使 用 的 成 本 相对 来 说 是 很 低 的 。 
当然 ， 在 这 里 我 们 也 需要 补充 一 点 ，Oracle 提 供 的 MySQL 官 方 版 本 对 于 
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附录 B 演 示 了 如 何 检查 MySQL 服 务 器 。 知 道 如 何 从 服务 器 获取 状态 
信息 是 非常 重要 的 ， 而 了 解 这 些 状 态 代 表 的 意义 则 更 加 重要 。 这 里 将 覆 
m@SHOW INNODB STATUS 的 输出 结果 ， 因 此 这 里 包含 了 InnoDB 事 务 存 储 
引擎 的 深入 信息 。 在 这 个 附录 中 讨论 了 很 多 InnoDB 的 内 部 信息 。 








附录 C 演 示 了 如 何 遍 效 地 将 大 文件 从 一 个 地 方 复制 到 另外 一 个 地 
方 。 如 采 要 管理 大 量 的 数据 ， 这 种 操作 是 经 闻 都 会 碰 到 的 。 附 录 D 这 示 
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所 请 求 的 锁 互相 干扰 的 问题 。 最 后 ， 附 录 F 介 绍 了 Sphinx， 一 个 基于 
MySQL 的 高 性 能 的 全 文 索引 系统 。 


软件 版 本 与 可 用 性 


MySQL 是 一 个 移动 于。 从 Jeremy 写 作 本 书 第 一 版 到 现在 ，MySQL 
己 经 发 布 了 好 几 个 版 本 。 当 本 书 第 一 版 的 初稿 交 给 出 版 社 的 时 候 ， 
MySQL 4.1 和 5.0 还 只 是 alpha 版 本 ， 而 如 今 MySQL 5.1 和 5.5 已 经 是 很 多 
在 线 应 用 的 主力 版 本 。 在 我 们 写 完 这 第 三 版 的 时 候 ，MySQL 5.6 也 即将 
发 布 。 





本 书 的 内 容 并 不 依赖 某 一 个 具体 的 版 本 。 相 反 ， 我 们 会 利用 自己 在 
实际 环境 中 获得 的 更 广泛 的 知识 。 本 书 的 核心 内 容 主要 关注 MySQL 5.1 
和 5.5 版 本 ， 因 为 我 们 认为 这 是 “当前 ”的 版 本 。 本 书 的 大 多 数 例子 都 假设 
运行 在 MySQL 5.1 的 某 个 成 熟 版 本 上 ， 比 如 MySQL 5.1.50 或 者 更 高 的 版 
本 。 对 于 在 旧版 本 中 可 能 不 存在 ， 或 者 只 在 即将 到 来 的 5.6 版 本 中 出 现 
的 特性 或 者 功能 ， 我 们 也 会 特别 标注 出 来 。 然 而 ， 关 于 某 个 MySQL 版 
本 的 特性 的 权威 指南 还 是 要 看 官方 文档 。 在 阅读 本 书 时 ， 建 议 随 时 访问 
在 线 官方 文档 的 相关 内 容 Chttp://dev.mysql.com/doc/) 。 











MySQL 的 男 外 一 个 伟大 特点 是 能 够 运行 在 现今 流行 的 所 有 平台 : 
Mac OS X, Windows, GNU/Linux, Solaris, FreeBSD, Vik (Kae 
举 出 名 字 的 其 他 平台 。 然 而 ， 本 书 主要 基于 GNU/Linux 由 和 其 他 类 Unix 
系统 。Windows 的 用 户 可 能 会 倍 到 一 些 困 难 。 比 如 说 文件 路 径 就 和 
Windows 完 全 不 一 样 。 我 们 也 会 引用 一 些 Unix 的 命令 行 工 具 ， 我 们 假设 
读者 能 够 知道 Windows 上 对 应 的 工具 是 什么 钙 。 





在 Windows 上 搞 MySQL 的 另外 一 个 难点 是 Pearl。MySQL 中 有 很 多 有 
用 的 工具 是 用 Penl 写 的 。 在 本 书 的 一 些 章节 中 ， 也 有 一 些 Perl 脚本， 在 


此 基础 上 可 以 构建 更 加 复杂 的 工具 。Percona Toolkit 是 不 可 多 得 的 
MySQL 管 理工 具 ， 也 是 用 Perl 写 的 。 然 而 ，Windows 平 台 默 认 是 没有 
Perl 环 境 的 。 为 了 使 用 这 些 工 具 ， 需 要 从 ActiveState 下 载 Perl 的 Windows 
版 本 ， 以 及 访问 MySQL 所 需要 的 一 些 额外 的 模块 《DB1 和 

DBD: :MySQL) 。 


本 书 使 用 的 约定 
下 面 是 本 书 中 使 用 的 一 些 约定 。 
和 斜体 (1talic) 


新 的 名 字 、URL、 邮 件 地 址 、 用 户 名 、 主 机 名 、 文 件 名 、 文 件 
扩展 名 、 路 径 名 、 目 录 ， 以 及 Unix 命 令 和 工具 都 使 用 斜体 表示 。 


Ae 


等 宽 字 体 (Constant width) 





包括 代码 元 系 、 配 置 选项 、 数 据 库 和 表 名 、 变 量 和 值 、 函 数 、 
模块 、 文 件 内 容 、 命 令 输出 等 ， 使 用 的 是 等 览 字体。 


加 粗 的 等 宽 字 体 (Constant width bold) 


命令 或 者 其 他 需要 用 户 输 入 的 文本 ， 命 令 输出 中 需要 强调 的 某 
些 内 容 ， 会 使 用 加 粗 的 等 宽 字 体 。 


2) 


斜体 的 等 宽 字 体 (Constant width italic) 


需要 用 户 蔡 换 的 文本 以 斜体 的 等 宽 字 体 表 示 。 


Er 

pest 
as 
i 





q 这 个 图 标 表示 提示 、 建 议 ， 或 者 一 般 的 记录 。 


E 


-ED ERa 个 警告 或 者 提醒 。 





使 用 示例 代码 


本 书 的 目标 是 为 了 帮助 读者 更 好 地 工作 。 一 般 来 说 ， 你 可 以 在 程序 
或 者 文档 中 使 用 本 书 中 的 代码 。 只 要 不 是 大 规模 地 复制 重要 的 代码 ， 使 
用 的 时 候 不 需要 联系 我 们 。 例 如 ， 你 编写 的 程序 中 如 果 只 是 使 用 了 本 书 
部 分 的 代码 片段 则 无 须 取 得 授权 ， 而 出 售 或 者 分 及 O'Reilly 书 籍 示例 代 
码 的 CD-ROM 盘 片 则 需要 经 过 授权 。 引 用 本 书 的 代码 回答 问题 也 无 须 取 
得 授权 ， 而 大 量 引 用 本 书 的 示例 代码 到 产品 文档 中 则 需要 获取 授权 。 





























示例 代码 维护 在 http:/www.highperfmysql.com 站 点 中 ， 会 及 时 保持 
更 新 。 但 我 们 无 法 确保 代码 会 跟随 每 一 个 MySQL 的 小 版 本 进行 更 新 和 
测试 。 


我 们 欢迎 大 家 在 使 用 了 本 书 代 码 后 进行 有 反馈， 但 这 不 是 一 个 强制 要 
求 。 反 馈 时 请 提供 标题 、 作 者 、 出 版 公司 和 ISBN。 例 如 : “High 
Performance MySQL, Third Edition, by Baron Schwartz et al. 
(O'Reilly) . Copyright 2012 Baron Schwartz, Peter Zaitsev, and Vadim 
Tkachenko, 978-1-449-31428-6”. 


如 果 你 使 用 了 本 书 的 代码 ， 但 又 不 在 上 面 描述 的 一 些 无 须 授 权 的 范 
围 之 内 ， 不 确定 是 人 否 需要 获取 授权 时 ， 请 联系 


permissions@oreilly.com.» 


Safari 在 线 书 店 


Sa fa ri? Safari 在 线 书店 (www.safaribooksonline.com) 是 一 家 提供 定制 服务 的 数 


Bais hoier 


字 图 书馆 ， 提 供 技术 和 商务 领域 内 顶级 作家 的 高 质量 内 容 的 书籍 和 音像 制品 。 很 多 技术 专家 、 
软件 开发 者 、Web 设 计 师 、 商 务 人 士 和 创新 专家 都 将 Safari 在 线 书店 作为 他 们 研究 、 解 决 问题 、 
学 习 和 认证 练习 的 首选 资料 来 源 。 
























































Safari 在 线 书店 为 组 织 、 政 府 机 构 和 个 人 提供 了 一 系列 的 产品 组 合 

和 定价 计划 。 订 阅 者 可 以 访问 数 以 千 计 的 图 书 、 培 训 视频 和 手稿 ， 这 些 
存在 于 一 个 可 搜索 的 数据 库 中 ， 涵 盖 的 出 版 公司 有 O'Reilly Media, 
Prentice Hall Professional, Addison-Wesley Professional, Microsoft 
Press, Sams, Que, Peachpit Press, Focal Press, Cisco Press, John 
Wiley&Sons, Syngress, Morgan Kaufmann, IBM Redbooks, Packt, 
Adobe Press, FT Press, Apress, Manning, New Riders, McGraw-Hill, 
Jones&Bartlett, Course ”Technology， 等 等 。 如 需 了 解 更 多 关于 Safari 在 
线 书店 的 情况 ， 请 访问 在 线 网 站 。 


如 何 联系 我 们 


奉 有 关于 本 书 的 任何 评论 或 者 问题 ， 请 和 出 版 公司 联系 。 
美国 : 

O'Reilly Media, Inc. 

1005 Gravenstein Highway North 

Sebastopol, CA 95472 


中 国 : 





北京 市 西城 区 西直门 南大 街 2 号 成 铬 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 〈 北 京 ) 有限 公司 


本 书 有 一 个 配套 的 网 页 ， 上 面 列 出 了 勘误 表 、 示 例 代 码 及 其 他 相关 
信息 。 下 面 是 此 网 页 的 地 址 : 





http://shop.oreilly.com/product/0636920022343.do 
如 果 有 关于 本 书 的 评论 和 技术 问题 ， 也 可 以 通过 邮件 进行 沟通 : 
bookquestions@oreilly.com 


如 果 想 了 解 更 多 关于 我 们 出 版 公司 的 书籍 、 会 议 、 资 源 中 心 和 
OReilly 网 络 的 信息 ， 请 访问 网 站 : 


http://www.oreilly.com 
我 们 的 Facebook: http://facebook.com/oreilly 
我 们 的 Twitter: http://twitter.com/oreillymedia 
我 们 的 YouTube: http:/Avww.youtube.com/oreillymedia 


当然 ， 读 者 也 可 以 直接 和 作者 取得 联系 ， 可 以 访问 作者 的 公司 网 站 
http:Mwww.percona.com。 我 们 将 乐于 收 到 大 家 的 反馈 。 


ASP = WAY BO 


感谢 以 下 人 员 给 予 的 各 种 帮助 : Brian Aker, Johan Andersson, 
Espen Braekken, Mark Callaghan, James Day, Maciej Dobrzanski, 


J 


Ewen Fortune, Dave Hildebrandt, Fernando Ipar, Haidong Ji, Giuseppe 
Maxia, Aurimas Mikalauskas, Istvan Podor, Yves Trudeau, Matt 
Yonkovit, Alex Yurchenko。 感 谢 Percona 公 司 的 所 有 员工 ， 多 年 来 为 本 
书 提供 了 无 数 的 支持 。 感 谢 很 多 著名 博 主 咏 和 技术 大 会 的 演讲 者 ， 他 们 
为 本 书 的 很 多 思想 提供 了 大 量 的 又 材 ， 尤 其 是 Yoshinori Matsunobu. 7 
外 也 要 感谢 本 书 前 面 两 版 的 作者 : Jeremy D. Zawodny、Derek J. Balling 
和 Arjen Lentz。 感 谢 Andy Oram, Rachel Head， 以 及 O'Reilly 的 整个 编辑 
团队 ， 你 们 为 本 书 的 出 版 和 发 行 做 了 时 有 成 效 的 工作 。 非 常 感谢 Oracle 
的 才华 横 汶 且 专 注 的 MySQL 团 队 ， 以 及 所 有 之 前 的 MySQL 开 发 者 ， 不 
管 你 现在 是 在 SkySQL 还 是 在 Monty 团 队 。 











Baron 也 要 感谢 他 的 妻子 Lynn、 他 的 母亲 Connie， 以 及 他 的 岳父 母 
Jane 和 Roger， 感 谢 他 们 一 如 既往 地 文 持 他 的 工作 ， 尤 其 是 不 断 地 辟 励 
他 ， 并 且 承 担 了 所 有 的 家 务 和 照顾 整个 家 许 的 重任 。 也 要 感谢 Peter 和 
Vadim， 你 们 是 如 此 优秀 的 老师 和 同事 。 Sse ine Rimm- 
Kaufman, UESIA PGA eR, HEA KE ANS o 


本 书 第 二 厂 的 致谢 


Sphinx 的 开发 者 Andrew Aksyonoff 编 写 了 附录 F。 我 们 非 营 感谢 他 首 
次 对 此 进行 深入 的 讨论 。 


在 编写 本 书 的 时 候 ， 我 们 得 到 了 很 多 人 的 无 私 帮助 。 在 此 无 法 一 一 
列举 一 一 我 们 真 的 非常 感谢 Myer tay Oh AB 公 司 的 每 一 个 人 。 
下 面 是 对 本 书 做 出 了 直接 页 献 的 人 ， 如 有 遗漏 ， 还 请 见谅 。 他 们 是 : 
Tobias Asplund, Igor Babaev, Pascal Borghino, Roland Bouman, 
Ronald Bradford, Mark Callaghan, Jeremy Cole, Britt Crawford 和 他 的 
HiveDB 项 目 , Vasil Dimov, Harrison Fisk, Florian Haas, Dmitri 
Joukovski 和 他 的 Zmanda 项 目 〈 同 时 感谢 Dmitri 为 解释 LVM 快 照 提供 的 
配 图 ) ，Alan Kasindorf, Sheeri Kritzer Cabral, Marko Makela, 
Giuseppe Maxia, Paul McCullagh, B. Keith Murphy, Dhiren Patel, 
Sergey Petrunia, Alexander Rubin, Paul Tuckfield, Heikki Tuuri, 以 及 
Michael“Monty”Widenius。 在 这 里 还 要 特别 感谢 OReilly 的 编辑 Andy 
Oram 和 助理 编辑 Isabel Kunkle， 以 及 审 稿 人 Rachel Wheeler， 同 时 也 要 
感谢 O'Reilly 团 队 的 其 他 所 有 成 员 。 


来 自 Baron 


我 要 感谢 我 的 妻子 Lynn Rainville 和 小 狗 Carbon。 如 果 你 也 曾 写 过 一 
本 书 ， 我 相信 你 天 能 体会 到 我 是 如 何 地 感谢 他 们 。 我 也 非常 感谢 Alan 
Rimm-Kaufman 和 我 在 Rimm-Kaufman 集 团 的 同事 ， 在 写 书 的 过 程 中 ， 他 
们 给 了 我 支持 和 鼓励 。 谢 谢 Peter、Vadim 和 Arjen， 是 你 们 给 了 我 梦想 成 





真 的 机 会 。 最 后 ， 我 要 感谢 Jeremy 和 了 Derek 为 我 们 开 了 个 好 头 。 


来 自 Peter 


我 从 事 MySQL 性 能 和 可 扩展 性 方面 的 演讲 、 培 训 和 咨询 工作 已 经 
很 多 年 了 ， 我 一 直 想 把 它们 扩展 到 更 多 的 受众 。 因 此 ， 当 Andy Oram 加 
入 到 本 书 的 编写 当中 时 ， 我 感到 非常 兴奋 。 此 前 我 没有 写 过 书 ， 所 以 我 
对 所 需要 的 时 间 和 精力 都 这 无 把 握 。 一 开始 我 们 谈 到 只 对 第 一 版 做 一 些 
更 新 ， 以 跟 上 MySQL 最 新 的 版 本 升级 ， 但 我 们 想 把 更 多 新 素材 加 入 到 
书 中 ， 结 果 几 乎 相当 于 重 写 了 整 本 书 。 





这 本 书 是 真正 的 团队 合作 的 结晶 。 因 为 我 忙于 Percona 公 司 的 事情 

一 一 这 是 我 和 有 和 Vadim 的 咨询 公司 ， 而 且 英 语 并 非 我 的 第 一 语言 ， 所 以 我 
们 有 着 不 同 的 角色 分 工 。 我 负责 提供 大 纲 和 技术 性 内 容 ， 评 审 所 有 的 材 
料 ， 在 写作 的 时 候 再 进行 修订 和 扩展 。 当 Arjen MySQL 文档 团队 的 前 
负责 人 ) 加 入 之 后 ， 我 们 就 开始 勾画 出 整个 提纲 。 在 Baron 加 入 后 ， 一 
切 才 开始 真正 行动 起 来 ， 他 能 够 以 不 可 思议 的 速度 编写 出 高 质量 的 内 

容 。Vadim 则 在 深入 检查 MySQL 源 代码 和 提供 基准 测试 及 其 他 研究 来 巩 
固 我 们 的 论点 时 提供 了 巨大 的 帮助 。 











当 我 们 编写 本 书 时 ， 我 们 发 现 有 越 来 越 多 的 领域 需要 刨 根 问 确 。 本 
书 的 大 部 分 主题 ， 如 复制 、 碍 询 优 化 、ImnoDB、 架 构 和 设计 都 足以 单 
独 成 书 。 因 此 ， 有 时 候 我 们 不 得 不 在 某 个 点 停止 深入 ， 把 余下 的 材料 用 
在 将 来 可 能 出 版 的 新 版 本 中 ， 或 者 我 们 的 博客 、 演 讲 和 技术 文章 中 。 





本 书 的 评审 者 给 了 我 们 非常 大 的 帮助 ， 无 论 古 来 自 MySQL AB 公 司 
内 部 的 人 员 ， 还 是 外 部 的 人 员 ， 他 们 都 是 MySQL 领 域 最 优秀 的 世界 级 


专家 。 其 中 包括 MySQL 的 创建 者 Michael ”Widenius、InnoDB 的 创建 者 
Heikki Tuuri、MySQL 优 化 器 团队 的 负责 人 Igor Babaev， 以 及 其 他 人 。 


我 还 要 感谢 我 的 妻子 Katya Zaytseva， 我 的 孩子 Ivan 和 Nadezhda， 他 
们 人 多 许 我 把 家 庭 时 间 花 在 了 本 书 的 写作 上 。 我 也 要 感谢 Percona 的 员 
工 ， 当 我 在 公司 里 < 人间 蒸发 "去 写 书 时 ， 他 们 承担 了 日 冲 事 务 的 处 理工 
作 。 当 然 ， 我 也 要 感谢 OReilly 和 Andy Oram 让 这 一 切 成 为 可 能 。 











K ÄH Vadim 


我 要 感谢 Peter， 能 够 在 本 书 中 和 他 合作 ， 我 感到 十 分 开心 ， 期 望 在 
其 他 项 目 中 能 继续 共事 。 我 也 要 感谢 Baron， 他 在 本 书 的 写作 过 程 中 起 
了 很 大 的 作用 。 还 有 Arjen， 跟 他 一 起 工作 非常 好 玩 。 我 还 要 感谢 我 们 
的 编辑 Andy Oram， 他 抱 着 十 二 万 分 的 耐心 和 我 们 一 起 工作 。 此 外 ， 还 
要 感谢 MySQL 团 队 ， 是 他 们 创造 了 这 个 伟大 的 软件 。 我 还 要 感谢 我 们 
的 客户 给 予 我 调 优 MySQL 的 机 会 。 最 后 ， 我 要 特别 感谢 我 的 妻子 
Valerie， 以 及 我 们 的 孩子 Myroslav 和 Timur， 他 们 一 直 文 持 我 ， 帮 助 我 


一 步 步 前 进 。 





KA Arjen 


RE And WA. FES AI, FRU Baron iiA R 
中 来 、 感 谢 Peter 和 Vadim 坚 实 的 背景 信息 和 基准 测试 。 也 要 感谢 Jeremy 
和 Derek 在 第 一 版 中 打下 的 基础 。 在 我 的 书 上 ，Derak 题 写 着 :“ 要 诚实 
一 一 这 就 是 我 的 所 有 要 求 ”。 








我 也 要 感谢 我 在 MySQL AB 公 司 时 的 所 有 同事 ， 在 那里 我 获得 了 关 
于 本 书 主题 的 大 多 数 知识 。 在 此 ， 我 还 要 特别 提 到 Monty， 我 一 直 认为 
他 是 令 人 自豪 的 MySQL 之 父 ， 尽 管 他 的 公司 如 今 已 经 成 为 Sun 公 司 的 一 
部 分 。 我 要 感谢 全 球 MySQL 社 区 里 的 每 一 个 人 。 


最 后 同样 重要 的 是 ， 我 要 感谢 我 的 女儿 Phoebe， 在 她 尚 年 少 的 生活 
舞台 上 ， 不 用 关心 什么 是 MySQL， 也 不 用 考虑 Wiggles 指 的 是 什么 东 
西 。 从 某 些 方面 来 讲 ， 无 知 就 是 福 。 它 能 给 予 我 们 一 个 全 新 的 视角 来 看 
清 生 命中 真正 重要 的 是 什么 。 对 于 读者 ， 祝 愿 你 们 的 书架 上 又 增添 了 一 
本 有 用 的 书 ， 还 有 ， 不 要 忘记 你 的 生活 。 





本 书 第 一 版 的 致谢 


要 完成 这 样 一 本 书 的 写作 ， 离 不 开 许 许 多 多 人 的 帮助 。 没 有 他 们 的 
无 私 援助 ， 你 手 上 的 这 本 书 束 可 能 仍然 是 我 们 显示 右 屏 幕 四 周 的 那 一 堆 
贴纸 。 这 是 本 书 的 一 部 分 ， 在 这 里 ， 我 们 可 以 感谢 每 一 个 曾经 帮助 我 们 
脱离 困境 的 人 人， 而 无 须 担心 突然 双 啊 的 背景 首 乐 催促 我 们 闭 上 嘴巴 赶紧 
走 抒 一 一 如 同 你 在 电视 里 看 到 的 颁奖 晚会 那样 。 








如 果 没 有 编辑 Andy Oram 坚 决 的 叔 促 、 请 求 、 央 求 和 支持 ， 我 们 区 
无 法 完成 本 书 。 如 果 要 找 对 于 本 书 最 负 员 的 一 个 人 ， 那 就 是 Andy。 我 
们 真 的 非常 感谢 每 周一 次 的 路 路 叫 叫 的 会 议 。 








然而 ，Andy 不 是 一 个 人 在 战斗 。 在 O'Reilly， 还 有 一 批 人 都 参与 了 
将 那些 小 贴纸 变 成 你 正在 看 的 这 本 书 的 工作 。 所 以 我 们 也 要 感谢 那些 在 
生产 、 插 画 和 销售 环节 的 人 们 ， 感 谢 你 们 把 这 本 书 变 成 实体 。 当 然 ， 也 
要 感谢 Tim ”O'Reilly， 是 他 持久 不 变 地 承诺 为 广大 开源 软件 出 版 一 批 业 
内 最 好 的 图 书 。 


最 后 ， 我 们 要 把 感谢 给 予 那些 同意 审阅 本 书 不 同 版 本 草稿 ， 并 告诉 
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X H Jeremy 





REER Andy, eH lA RAIS SIA, EREA ER 
我 们 加 入 新 的 章节 内 容 。Derek 的 帮助 也 非常 关键 ， 本 书 最 后 的 20% 一 
30% 内 容 由 他 一 手 完成 ， 这 使 得 我 们 没有 错过 下 一 个 目标 日 期 。 感 谢 他 
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D 为 了 避免 产生 疑惑 ， 如 果 我 们 指 的 是 内 核 的 时 候 用 的 是 Linux， 如 果 指 的 是 支持 应 用 的 














整个 操作 系统 环境 的 时 候 用 的 是 GNU/Linux。 




















(2) AY LM http://unxutils.sourceforge.net® 4 http://gnuwin32.sourceforge.net3k44Unix_L. 
Windows#t AKA « 


(3) 在 http:/planet.mysql.com 网 站 上 可 以 找到 很 多 优秀 的 技术 博客 。 
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第 1 草 MySQL 染 构 与 历史 


和 其 他 数据 库 系统 相 比 ，MySQL 有 点 与 众 不 同 ， 它 的 架构 可 以 在 
多 种 不 同 场 景 中 应 用 并 发 挥 好 的 作用 ， 但 同时 也 会 带 来 一 点 选择 上 的 困 
难 。MySQL 并 不 完美 ， 却 足够 灵活 ， 能 够 适应 高 要 求 的 环境 ， 例 如 Web 
类 应 用 。 同 时 ，MySQL 既 可 以 庶 入 到 应 用 程序 中 ， 也 可 以 文 持 数据 仓 
库 、 内 容 索 引 和 部 署 软 件 、 高 可 用 的 元 余 系 统 、 在 线 事务 处 理 系统 
COLTP) 等 各 种 应 用 类 型 。 








为 了 充分 发 挥 MySQL 的 性 能 并 顺利 地 使 用 ， 惑 必须 理解 其 设计 。 
MySQL 的 灵活 性 体现 在 很 多 方面 。 例 如 ， 你 可 以 通过 配置 使 它 在 不 同 
的 硬件 上 都 运行 得 很 好 ， 也 可 以 支持 多 种 不 同 的 数据 类 型 。 但 是 ， 
MySQL 最 重要 、 最 与 众 不 同 的 特性 是 它 的 存储 引擎 架构 ， 这 种 架构 的 
设计 将 查询 处 理 (Query Processing) 及 其 他 系统 任务 (Server Task) 和 
数据 的 存储 /提取 相 分 离 。 这 种 处 理 和 存储 分 离 的 设计 可 以 在 使 用 时 根 
据 性 能 、 特 性 ， 以 及 其 他 需求 来 选择 数据 存储 的 方式 。 











本 章 概 要 地 描述 了 MySQL 的 服务 器 架构 、 各 种 存储 引擎 之 间 的 主 
要 区 别 ， 以 及 这 些 区 别 的 重要 性 。 另 外 也 会 回顾 一 人 MySQL 的 历史 青 
景 和 基准 测试 ， 并 试图 通过 简化 细节 和 演示 案例 来 讨论 MySQL 的 原 
理 。 这 些 讨论 无 论 是 对 数据 库 一 无 所 知 的 新 手 ， 还 是 熟知 其 他 数据 库 的 
EAR, EATR it» 








1.1 MySQLi’ 484844 


如 果 能 在 头脑 中 构建 出 一 幅 MySQL 各 组 件 之 间 如 何 协同 工作 的 染 
构图 ， 就 会 有 助 于 深入 理解 MySQL 服 务 器 。 图 1-1 展 示 了 MySQL 的 逻辑 
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图 1-1: MySQL 服 务 器 逻辑 架构 图 


最 上 层 的 服务 并 不 是 MySQL 所 独 有 的 ， 大 多 数 基于 网 络 的 客户 端 / 
服务 器 的 工具 或 者 服务 都 有 类 似 的 架构 。 比 如 连接 处 理 、 授 权 认 证 、 安 


全 等 等 。 


第 二 层 架 构 是 MySQL 比 较 有 意思 的 部 分 。 大 多 数 MySQL 的 核心 服 
务 功能 都 在 这 一 层 ， 包 括 查 询 解 析 、 分 析 、 优 化 、 缓 存 以 及 所 有 的 内 置 
函数 (例如 ， 日期、 时 间 、 数 学 和 加 密 函 数 ) ， 所 有 跨 存 储 引 擎 的 功能 
都 在 这 一 层 实 现 : 存储 过 程 、 触 发 器 、 视 图 等 。 





第 三 层 包含 了 存储 引擎 。 存 储 引 擎 负责 MySQL 中 数据 的 存储 和 提 
取 。 和 GNU/Linux 下 的 各 种 文件 系统 一 样 ， 每 个 存储 引擎 都 有 它 的 优势 





和 劣势 。 服 务 器 通过 API 与 存储 引擎 进 行 通信 。 这 些 接口 屏 获 了 不 同 存 
储 引 擎 之 间 的 差异 ， 使 得 这 些 差 异 对 上 层 的 查询 过 程 透 明 。 存 储 引 擎 
API 包 含 儿 十 个 底层 函数 ， 用 于 执行 诸如 “开始 一 个 事务 ?或 者 “根据 主键 
提取 一 行 记 录 ” 等 操作 。 但 存储 引擎 不 会 去 解析 SQL， 不 同 存储 引擎 
之 间 也 不 会 相互 通信 ， 而 只 是 简单 地 啊 应 上 层 服务 器 的 请 求 。 


1.1.1 连接 管理 与 安全 性 


每 个 客户 端 连接 都 会 在 服务 器 进程 中 拥有 一 个 线程 ， 这 个 连接 的 碍 
询 只 会 在 这 个 单独 的 线程 中 执行 ， 该 线程 只 能 轮流 在 茶 个 CPU 核心 或 者 
CPU 中 和 运行。 服务器 会 负责 缓存 线程 ， 因 此 不 需要 为 每 一 个 新 建 的 连接 
创建 或 者 销毁 线程 包 。 




















当 客 户 端 〈 应 用 ) 连接 到 MySQL 服 务 器 时 ， 服 务 器 需要 对 其 进行 
认证 。 认 证 基于 用 户 名 、 原 始 主机 信息 和 密码。 如 果 使 用 了 安全 套 接 字 
(SSL) 的 方式 连接 ， 还 可 以 使 用 X.509 证 书 认 证 。 一 旦 客户 端 连接 成 
功 ， 服 务 嚣 会 继续 验证 该 客户 端 是 否 上 共有 执行 某 个 特定 查询 的 权限 〈 例 

如 ， 是 否 允 许 客 户 端 对 wor1d 数 据 库 的 Country 表 执行 SELECT 语句 ) 。 


1.1.2 ”优化 与 执行 


MySQL 会 解析 查询 ， 并 创建 内 部 数据 结构 〈 解 析 树 ) ， 然 后 对 其 
进行 各 种 优化 ， 包 括 重 写 查 询 、 决 定 表 的 读 取 顺 序 ， 以 及 选择 合适 的 索 
引 等 。 用 户 可 以 通过 特殊 的 关键 字 提 示 Cin 优化 器 ， 影 响 它 的 决策 
过 程 。 也 可 以 请 求 优 化 器 解释 (explain) 优化 过 程 的 各 个 因素 ， 使 用 户 
可 以 知道 服务 器 是 如 何 进行 优化 决策 的 ， 并 提供 一 个 参考 基准 ， 便 于 用 
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优化 器 并 不 关心 表 使 用 的 是 什么 存储 引擎 ， 但 存储 引擎 对 于 优化 碍 
询 是 有 影响 的 。 优 化 器 会 请 求 存 储 引 擎 提供 容量 或 某 个 具体 操作 的 开销 
言 息 ， 以 及 表 数 据 的 统计 信息 等 。 例 如 ， 某 些 存 储 引 警 的 某 种 索引 ， 可 
能 对 一 些 特定 的 查询 有 优化 。 关 于 索引 与 schema 的 优化 ， 请 参见 第 4 章 
和 第 5 章 。 

















对 于 SELECT 语句 ， 在 解析 查询 之 前 ， 服 务 器 会 先 检查 碍 询 缓存 
(Query Cache) ， 如 果 能 够 在 其 中 找到 对 应 的 查询 ， 服 务 器 就 不 必 再 
执行 查询 解析 、 优 化 和 执行 的 整个 过 程 ， 而 是 直接 返回 查询 缓存 中 的 结 
果 集 。 第 7 章 详细 讨论 了 相关 内 容 。 





1.2 ”并 及 控制 


无 论 何 时 ， 只 要 有 多 个 查询 需要 在 同一 时 刻 修改 数据 ， 都 会 产生 并 
发 控制 的 问题 。 本 章 的 目的 是 讨论 MySQL 在 两 个 层面 的 并 发 控制 : 服 
务 器 层 与 存储 引 警 层 。 并 发 控制 是 一 个 内 容 庞大 的 话题 ， 有 大 量 的 理论 
文献 对 其 进行 过 详细 的 论述 。 本 章 只 简要 地 讨论 MySQL 如 何 控制 并 发 
读 写 ， 因 此 读者 需要 有 相关 的 知识 来 理解 本 章 接 下 来 的 内 容 。 








以 Unix 系 统 的 email box 为 例 ， 典 型 的 mbox 文 件 格式 是 非常 简单 的 。 
一 个 mbox 邮 箱 中 的 所 有 邮件 都 串 行 在 一 起 ， 彼 此 首尾 相连 。 这 种 格式 对 
于 读 取 和 分 析 邮 件 信息 非常 友好 ， 同 时 投递 邮件 也 很 容易 ， 只 要 在 文件 
末尾 附加 新 的 邮件 内 容 即 可 。 








但 如 果 两 个 进程 在 同一 时 刻 对 同一 个 邮箱 投递 邮件 ， 会 发 生 什么 情 
W? 显然 ， 邮 箱 的 数据 会 被 破坏 ， 两 封 邮件 的 内 容 会 区 叉 地 附加 在 邮箱 
文件 的 来 尾 。 设 计 民 好 的 邮箱 投递 系统 会 通过 锁 Clock) 来 防止 数据 损 
坏 。 如 采 客 户 试图 投递 邮件 ， 而 邮箱 已 经 被 其 他 客户 锁 住 ， 那 就 必须 等 
每 ， 直 到 锁 释放 才能 进行 投递 。 





这 种 锁 的 方案 在 实际 应 用 环境 中 虽然 工作 展 好 ， 但 并 不 文 持 并 及 处 
理 。 因 为 在 任意 一 个 时 刻 ， 只 有 一 个 进程 可 以 修改 邮箱 的 数据 ， 这 在 大 
容量 的 邮箱 系统 中 是 个 问题 。 


1.2.1 ZS 
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取 也 不 会 有 什么 问题 。 因 为 读 取 不 会 修改 数据 ， 所 以 不 会 出 错 。 但 如 果 
某 个 客户 正在 读 取 邮 箱 ， 同 时 另外 一 个 用 户 试图 删除 编号 为 25 的 邮件 ， 
会 产生 什么 结果 ?结论 是 不 确定 ， 读 的 客户 可 能 会 报错 退出 ， 也 可 能 读 
取 到 不 一 致 的 邮箱 数据 。 所 以 ， 为 安全 起 见 ， 即 使 是 读 取 邮 箱 也 需要 特 


别 注意 。 





如 果 把 上 述 的 邮箱 当成 数据 库 中 的 一 张 表 ， 把 邮件 当成 表 中 的 一 行 
记录 ， 就 很 容易 看 出 ， 同 样 的 问题 依然 存在 。 从 很 多 方面 来 说 ， 邮 箱 就 
古 一 张 简单 的 数据 库 表 。 修 改 数据 库 表 中 的 记录 ， 和 删除 或 者 修改 邮箱 
中 的 邮件 信息 ， 十 分 类 似 。 





解决 这 类 经 典 问题 的 方法 就 是 并 发 控制 ， 其 实 非常 简单 。 在 处 理 并 
发 读 或 者 写 时 ， 可 以 通过 实现 一 个 由 两 种 类 型 的 锁 组 成 的 锁 系统 来 解决 
问题 。 这 两 种 类 型 的 锁 通 常 被 称 为 共享 氏 (shared lock) 和 排他 锁 
(exclusive lock) ， 也 叫 读 锁 (read lock) 和 写 锁 (write lock) 。 


这 里 先 不 讨论 锁 的 具体 实现 ， 描 述 一 下 锁 的 概念 如 下 : 读 锁 是 共享 
的 ， 或 者 说 是 相互 不 阻塞 的 。 多 个 客户 在 同一 时 刻 可 以 同时 该 取 同 一 个 
资源 ， 而 互 不 干扰 。 写 锁 则 是 排他 的 ， 也 惑 是 说 一 个 写 锁 会 阻 豆 其 他 的 
写 锁 和 读 锁 ， 这 古 出 于 安全 策略 的 考虑 ， 只 有 这 样 ， 才 能 确保 在 给 定 的 
时 间 里 ， 只 有 一 个 用 户 能 执行 号 入 ， 并 防止 其 他 用 户 读 取 正在 写 入 的 同 
一 资源 。 

在 实际 的 数据 库 系 统 中 ， 每 时 每 刻 都 在 发 生 锁定 ， 当 某 个 用 户 在 修 


改 某 一 部 分 数据 时 ，MySQL 会 通过 锁定 防止 其 他 用 户 读 取 同一 数据 。 
大 多 数 时 候 ，MySQL 锁 的 内 部 管理 都 是 透明 的 。 


1.2.2” 锁 粒度 





一 种 提高 共享 资源 并 发 性 的 方式 就 是 让 锁定 对 象 更 有 选择 性 。 尽 量 
只 锁定 需要 修改 的 部 分 数据 ， 而 不 是 所 有 的 资源 。 更 理想 的 方式 是 ， 只 
对 会 修改 的 数据 片 进行 精确 的 锁定 。 任 何 时 候 ， 在 给 定 的 资源 上 ， 锁 定 
的 数据 量 越 少 ， 则 系统 的 并 发 程度 越 高 ， 只 要 相互 之 间 不 发 生 冲 突 即 
a. 











问题 是 加 锁 也 需要 消耗 资源 。 锁 的 各 种 操作 ， 包 括 获 得 锁 、 检 碍 锁 
征 否 已 经 解除 、 释 放 锁 等 ， 都 会 增加 系统 的 开销 。 如 果 系 统 人 花费 大 量 的 
时 间 来 管理 锁 ， 而 不 是 存 取 数 据 ， 那 么 系统 的 性 能 可 能 会 因此 受到 影 
啊 。 


所 谓 的 锁 集 略 ， 就 是 在 锁 的 开销 和 数据 的 安全 性 之 间 寻 求 平衡 ， 这 
种 平衡 当然 也 会 影响 到 性 能 。 大 多 数 商业 数据 库 系 统 没 有 提供 更 多 的 选 
择 ， 一 般 都 是 在 表 上 施加 行 级 锁 (row-level lock) ， 并 以 各 种 复杂 的 方 
式 来 实现 ， 以 便 在 锁 比 较 多 的 情况 下 尽 可 能 地 提供 更 好 的 性 能 。 





而 MySQL 则 提供 了 多 种 选择 。 每 种 MySQL 存 储 引 擎 都 可 以 实现 自 
己 的 锁 策略 和 锁 粒 度 。 在 存储 引擎 的 设计 中 ， 锁 管理 是 个 非常 重要 的 决 
定 。 将 锁 粒 度 固 定 在 某 个 级 别 ， 可 以 为 某 些 特定 的 应 用 场景 提供 更 好 的 
性 能 ， 但 同时 却 会 失去 对 另外 一 些 应 用 场景 的 良好 支持 。 好 在 MySQL 
文 持 多 个 存储 引擎 的 架构 ， 所 以 不 需要 单一 的 通用 解决 方案 。 下 面 将 介 
绍 两 种 最 重要 的 锁 策 略 。 














表 锁 (table lock) 


表 锁 是 MYSQL 中 最 基本 的 锁 策 略 ， 并 且 是 开销 最 小 的 策略 。 表 锁 
非常 类 似 于 前 文 描述 的 邮箱 加 锁 机 制 : 它 会 锁定 整 张 表 。 一 个 用 户 在 对 
表 进 行 写 操作 (插入 、 删 除 、 更 新 等 ) 前 ， 需 要 先 获 得 写 锁 ， 这 会 阻塞 
其 他 用 户 对 该 表 的 所 有 读 写 操 作 。 只 有 没有 写 锁 时 ， 其 他 读 取 的 用 户 才 
能 获得 读 锁 ， 读 锁 之 间 是 不 相互 阻 豆 的 。 











在 特定 的 场景 中 ， 表 锁 也 可 能 有 良好 的 性 能 。 例 如 ，READ LOCAL 表 
锁 文 持 茶 些 类 型 的 并 发 写 操作 。 另 外 ， 写 锁 也 比 读 锁 有 更 高 的 优先 级 ， 
因此 一 个 写 锁 请 求 可 能 会 被 插入 到 读 锁 队列 的 前 面 ( 写 锁 可 以 插入 到 锁 
队列 中 读 锁 的 前 面 ， 反 之 读 锁 则 不 能 插入 到 写 锁 的 前 面 ) 。 





尽管 存储 引擎 可 以 管理 上 自己 的 锁 ，MySQL 本 号 还 是 会 使 用 各 种 有 
效 的 表 锁 来 实现 不 同 的 目的 。 例 如 ， 服 务 吉 会 为 诸如 ALTER TABLE 之 类 
的 语句 使 用 表 锁 ， 而 忽略 存储 引擎 的 锁 机 制 。 





íT% Crow lock) 


行 级 锁 可 以 最 大 程度 地 支持 并 发 处 理 ( 同 时 也 带 来 了 最 大 的 锁 开 
销 ) 。 众 所 周知 ， 在 InnoDB 和 XtraDB， 以 及 其 他 一 些 存储 引擎 中 实现 
了 行 级 锁 。 行 级 锁 只 在 存储 引 警 层 实 现 ， 而 MySQL 服 务 器 层 〈 如 有 必 
要 ， 请 回顾 前 文 的 逻辑 架构 图 ) 没有 实现 。 服 务 器 层 完 全 不 了 解 存储 引 
擎 中 的 锁 实 现 。 在 本 章 的 后 续 内 容 以 及 全 书 中 ， 所 有 的 存储 引擎 都 以 自 
己 的 方式 显现 了 锁 机 制 。 








13 事务 


在 理解 事务 的 概念 之 前 ， 接 触 数据 库 系 统 的 其 他 高 级 特性 还 言 之 过 
早 。 事 务 就 是 一 组 原子 性 的 SQL 碍 询 ， 或 者 说 一 个 独立 的 工作 单元 。 如 
果 数 据 库 引擎 能 够 成 功 地 对 数据 库 应 用 该 组 查询 的 全 部 语句 ， 那 么 就 执 
行 该 组 查询 。 如 果 其 中 有 任何 一 条 语句 因为 朋 浊 或 其 他 原因 无 法 执行 ， 
那么 所 有 的 语句 都 不 会 执行 。 也 惑 是 说， 事务 内 的 语句 ， 要 么 全 部 执行 
成 功 ， 要 么 全 部 执行 失败 。 





本 节 的 内 容 并 非 专属 于 MySQL， 如 果 读 者 已 经 熟悉 了 事务 的 ACID 
的 概念 ， 可 以 直接 跳 转 到 1.3.4 节 。 


银行 应 用 是 解释 事务 必要 性 的 一 个 经 典 例子 。 假 设 一 个 银行 的 数据 
库 有 两 张 表 : 支票 (checking) KMA (savings) 表 。 现 在 要 从 用 
户 Jane 的 支票 账户 转移 200 美 元 到 她 的 储蓄 账户 ， 那 么 需要 至 少 三 个 步 


IR: 


1. ALERE RA F 20058 TE » 
2. 从 文 票 账户 余额 中 减 去 200 美 元 。 
3. 在 储蓄 账户 余额 中 增加 200 美 元 。 








上 述 三 个 步骤 的 操作 必须 打包 在 一 个 事务 中 ， 任 何 一 个 步骤 失败 ， 
则 必须 回 深 所 有 的 步 又 。 


可 以 用 START TRANSACTI10N 语 句 开 始 一 个 事务 ， 然 后 要 么 使 
用 COMMIT 提 交 事 务 将 修改 的 数据 持久 保留 ， 要 么 使 用 ROLLBACK 撤 销 所 有 
的 修改 。 事 务 SQL 的 样本 如 下 : 


1 START TRANSACTION; 

2 SELECT balance FROM checking WHERE customer_id = 10233276; 
3 UPDATE checking SET balance = balance - 200.00 WHERE custom 
4 UPDATE savings SET balance = balance + 200.00 WHERE custome 


5 COMMIT; 


单纯 的 事务 概念 并 不 是 故事 的 全 部 。 试 想 一 下 ， 如 果 执 行 到 第 四 条 
THAIN ARS as SS, BRETA? 天 知道 ， 用 户 可 能 会 损失 200 美 
元 。 再 假如 ， 在 执行 到 第 三 条 语句 和 第 四 条 语句 之 间 时 ， 另 外 一 个 进程 
要 删除 文 票 账 户 的 所 有 余额 ， 那 么 结果 可 能 就 是 银行 在 不 知道 这 个 逻辑 
的 情况 下 白白 给 了 Jane 200 美 元 。 





除非 系统 通过 严格 的 ACID 测试 ， 否 则 衬 谈 事务 的 概念 是 不 够 的 。 
ACID 表示 原子 性 Catomicity) 、 一 致 性 〈consistency) 、 隔 离 性 
(isolation) 和 持久 性 〈durability) 。 一 个 运行 良好 的 事务 处 理 系统 ， 
必须 具备 这 些 标准 特征 。 





原子 性 Catomicity) 





一 个 事务 必须 被 视 为 一 个 不 可 分 割 的 最 小 工作 单元 ， 整 个 事务 
中 的 所 有 操作 要 么 全 部 提交 成 功 ， 要 么 全 部 失败 回 深 ， 对 于 一 个 事 
务 来 说 ， 不 可 能 只 执行 其 中 的 一 部 分 操作 ， 这 就 是 事务 的 原子 性 。 





一 致 性 (consistency) 


数据 库 总 是 从 一 个 一 致 性 的 状态 转换 到 外 一 个 一 致 性 的 状 
态 。 在 前 面 的 例子 中 ， 一 致 性 确保 了 ， 即 使 在 执行 第 三 、 四 条 语句 
之 间 时 系统 崩 沉 ， 支 加 账户 中 也 不 会 损失 200 美 元 ， 因 为 事务 最 终 








没有 提交 ， 所 以 事务 中 所 做 的 修改 也 不 会 保存 到 数据 库 中 。 


隔离 性 (isolation) 
通常 来 襄 ， 一 个 事务 所 做 的 修改 在 最 终 提交 以 前 ， 对 其 他 事务 
是 不 可 见 的 。 在 前 面 的 例子 中 ， 当 执行 完 第 三 条 语句 、 第 四 条 语句 
还 未 开始 时 ， 此 时 有 另外 一 个 账户 汇总 程序 开始 运行 ， 则 其 看 到 的 
支票 账户 的 余额 并 没有 被 减 去 200 美 元 。 后 面 我 们 讨论 隔离 级 别 
(Isolation leve) 的 时 候 ， 会 发 现 为 什么 我 们 要 说 “通常 来 说 ”是 不 
可 见 的 。 








持久 性 (durability) 


一 旦 事务 提交 ， 则 其 所 做 的 修改 就 会 永久 保存 到 数据 库 中 。 此 
时 即使 系统 衣 溃 ， 修 改 的 数据 也 不 会 丢失 。 持 和 久 性 是 个 有 点 模糊 的 
概念 ， 因 为 实际 上 持久 性 也 分 很 多 不 同 的 级 别 。 有 些 持久 性 策略 能 
够 提供 非常 强 的 安全 保障 ， 而 有 些 则 未 必 。 而 且 不 可 能 有 能 做 到 
100% 的 持久 性 保证 的 策略 (如 果 数 据 库 本 里 就 能 做 到 真正 的 持久 
性 ， 那 么 备份 又 怎么 能 增加 持久 性 呢 ? ) 。 在 后 面 的 一 些 章节 中 ， 
我 们 会 继续 讨论 MySQL 中 持久 性 的 真正 含义 。 








事务 的 ACID 特性 可 以 确保 银行 不 会 弄 丢 你 的 钱 。 而 在 应 用 逻辑 
中 ， 要 实现 这 一 点 非常 难 ， 甚 至 可 以 说 是 不 可 能 完成 的 任务 。 一 个 兼容 
ACID 的 数据 库 系 统 ， 需 要 做 很 多 复杂 但 可 能 用 户 并 没有 觉察 到 的 工 
作 ， 才 能 确保 ACID 的 实现 。 














就 像 锁 粒度 的 升级 会 增加 系统 开销 一 样 ， 这 种 事务 处 理 过 程 中 额外 
的 安全 性 ， 也 会 需要 数据 库 系统 做 更 多 的 额外 工作 。 一 个 实现 了 ACID 


的 数据 库 ， 相 比 没有 实现 ACID 的 数据 库 ， 通 常会 需要 更 强 的 CPU 处 理 
能 力 、 更 大 的 内 存 和 更 多 的 磁盘 空间 。 正 如 本 章 不 断 重 复 的 ， 这 也 正 是 
MySQL 的 存储 引擎 架构 可 以 发 挥 优势 的 地 方 。 用 户 可 以 根据 业务 是 否 
需要 事务 处 理 ， 来 选择 合适 的 存储 引擎 。 对 于 一 些 不 需要 事务 的 查询 类 
应 用 ， 选 择 一 个 非 事务 型 的 存储 引擎 ， 可 以 获得 更 高 的 性 能 。 即 使 存储 
引擎 不 支持 事务 ， 也 可 以 通过 LOCK ”TABLES 语 句 为 应 用 提供 一 定 程 度 的 
保护 ， 这 些 选择 用 户 都 可 以 自主 决定 。 


1.3.1 隔离 级 别 


隔离 性 其 实 比 想象 的 要 复杂 。 在 SQL 标准 中 定义 了 四 种 隔离 级 别 ， 
每 一 种 级 别 都 规定 了 一 个 事务 中 所 做 的 修改 ， 哪 些 在 事务 内 和 事务 间 是 
可 见 的 ， 哪 些 是 不 可 见 的 。 较 低级 别 的 隔离 通常 可 以 执行 更 遇 的 并 发 ， 
系统 的 开销 也 更 低 。 





a 
pees 
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aa | 每 种 存储 引擎 实 现 的 隔 训 级 别 不 尽 相 同 。 如 果 部 悉 其 他 的 数据 库 产品 ， 可 能 会 发 





ù 


茶 些 特性 和 你 期 望 的 会 有 些 不 一 样 〈 但 本 节 不 打算 讨论 更 详细 的 内 容 ) 。 读 者 可 以 根据 所 选择 
的 存储 引擎 ， 碍 阅 相关 的 手册 。 




















下 面 简单 地 介绍 一 下 四 种 隔离 级 别 。 
READ UNCOMMITTED (未 提交 读 ) 


在 READ UNCOMMITTED 级 别 ， 事 务 中 的 修改 ， 即 使 没有 提交 ， 对 
其 他 事务 也 都 是 可 见 的 。 事 务 可 以 读 取 未 提交 的 数据 ， 这 也 被 称 为 
脏 读 (Dirty Read) 。 这 个 级 别 会 导致 很 多 问题 ， 从 性 能 上 来 
Ui, READ UNCOMMITTED 不 会 比 其 他 的 级 别 好 太 多 ， 但 却 缺 乏 其 他 级 


别 的 很 多 好 处 ， 除 非 真 的 有 非常 必要 的 理由 ， 在 实际 应 用 中 一 般 很 
少 使 用 。 


READ COMMITTED (42 27%) 


大 多 数 数据 库 系 统 的 默认 隔离 级 别 都 是 READ COMMITTED 《但 
MySQL 不 是 ) 。READ ”COMMITTED 满 足 前 面 提 到 的 隔离 性 的 简单 定 
XL: 一 个 事务 开始 时 ， 只 能 “看 见 ” 已 经 提交 的 事务 所 做 的 修改 。 换 
名 话说 ， 一 个 事务 从 开始 直到 提交 之 前 ， 所 做 的 任何 修改 对 其 他 事 
务 都 是 不 可 见 的 。 这 个 级 别 有 时 候 也 叫做 不 可 重复 读 
(nonrepeatable read) ， 因 为 两 次 执行 同样 的 查询 ， 可 能 会 得 到 不 
一 样 的 结果 。 


REPEATABLE READ (可 重复 读 ) 


REPEATABLE “READ 解决 了 脏 读 的 问题 。 该 级 别 保 证 了 在 同一 个 
事务 中 多 次 读 取 同 样 记录 的 结果 是 一 致 的 。 但 是 理论 上 ， 可 重复 读 
隔离 级 别 还 是 无 法 解决 男 外 一 个 幻 读 (Phantom Read) 的 问题 。 所 
谓 弥 读 ， 指 的 是 当 某 个 事务 在 读 取 某 个 范围 内 的 记录 时 ， 另 外 一 个 
事务 又 在 该 范围 内 插入 了 新 的 记录 ， 当 之 前 的 事务 再 次 读 取 该 范围 
的 记录 时 ， 会 产生 幻 行 (Phantom Row) 。InnoDB 和 XtraDB 存 储 引 
擎 通过 多 版 本 并 发 控制 (MVCC, Multiversion Concurrency 
Control) 解决 了 幻 读 的 问题 。 本 章 稍 后 会 做 进一步 的 讨论 。 





可 重复 读 是 MySQL 的 默认 事务 隔离 级 别 。 
SERIALIZABLE (可 串 行 化 ) 


SERIAL1ZABLE 是 最 高 的 隔离 级 别 。 它 通过 强制 事务 串 行 执行 ， 


避免 了 前 面 说 的 纠 读 的 问题 。 简 单 来 说 ，SER1AL1ZABLE 会 在 读 取 的 
每 一 行 数据 上 都 加 锁 ， 所 以 可 能 导致 大 量 的 超时 和 锁 争 用 的 问题 。 
实际 应 用 中 也 很 少 用 到 这 个 隔离 级 别 ， 只 有 在 非常 需要 确保 数据 的 
一 致 性 而 且 可 以 接受 没有 并 发 的 情况 下 ， 才 考虑 采用 该 级 别 。 








#1-1: ANSI SQL 隔离 级 别 


隔离 级 别 脏 读 可 能 性 “不 可 重复 读 可 能 性 ARTA Pik 
READ UNCOMMITTED Yes Yes Yes No 
READ COMMITTED No Yes Yes No 
REPEATABLE READ No No Yes No 


SERIALIZABLE No No No Yes 


1.3.2 ZEA 


死 锁 是 指 两 个 或 者 多 个 事务 在 同一 资源 上 相互 占用 ， 并 请 求 锁定 对 
方 占用 的 资源 ， 从 而 导致 恶性 循环 的 现象 。 当 多 个 事务 试图 以 不 同 的 顺 
序 锁定 资源 时 ， 就 可 能 会 产生 死 锁 。 多 个 事务 同时 锁定 同一 个 资源 时 ， 
也 会 产生 死 锁 。 例 如 ， 设 想 下 面 两 个 事务 同时 处 理 StockPr ice 表 : 








事务 1 


START TRANSACTION; 
UPDATE StockPrice SET close = 45.50 WHERE stock_id = 4 and da 
UPDATE StockPrice SET close = 19.80 WHERE stock_id = 3 and da 


COMMIT; 


事务 2 


START TRANSACTION; 
UPDATE StockPrice SET high = 20.12 WHERE stock_id = 3 and dat 
UPDATE StockPrice SET high = 47.20 WHERE stock_id = 4 and dat 


COMMIT; 


WARS, PASSES ABT SR —ARUPDATEW G, DEBT SAT Be 
据 ， 同 时 也 锁定 了 该 行 数据 ， 接 着 每 个 事务 都 答 试 去 执行 第 二 条 UPDATE 
语句 ， 却 发 现 该 行 已 经 被 对 方 锁定 ， 然 后 两 个 事务 都 等 待 对方 释放 锁 ， 
同时 叉 持 有 对 方 需 要 的 锁 ， 则 陷入 死 循环 。 除 非 有 外 部 因 系 介入 才 可 能 
解除 死 锁 。 


为 了 解决 这 种 问题 ， 数 据 库 系统 实现 了 各 种 死 锁 检测 和 死 锁 超时 机 
制 。 越 复杂 的 系统 ， 比 如 InnoDB 存 储 引 擎 ， 越 能 检测 到 死 锁 的 循环 依 
赖 ， 并 立即 返回 一 个 错误 。 这 种 解决 方式 很 有 效 ， 人 否则 和 死 锁 会 导致 出 现 
非常 慢 的 查询 。 还 有 一 种 解决 方式 ， 吏 是 当 碍 询 的 时 间 达 到 锁 等 竺 超时 
的 设 定 后 放弃 锁 请 求 ， 这 种 方式 通常 来 说 不 太 好 。InnoDB 目 前 处 理 死 
锁 的 方法 是 ， 将 持 有 最 少 行 级 排他 锁 的 事务 进行 回 演 这 是 相对 比较 简 
单 的 死 锁 回 深 算 法 ) 。 























锁 的 行为 和 顺序 是 和 存储 引擎 相 关 的 。 以 同样 的 顺序 执行 语句 ， 有 
些 存 储 引 擎 会 产生 死 锁 ， 有 些 则 不 会 。 死 锁 的 产生 有 双重 原因 : 有 些 是 
因为 真正 的 数据 冲突 ， 这 种 情况 通常 很 难 避免 ， 但 有 些 则 完全 是 由 于 存 
储 引 擎 的 实现 方式 导致 的 。 











死 锁 发 生 以 后 ， 只 有 部 分 或 者 完全 回 滚 其 中 一 个 事务 ， 才 能 打破 死 
锁 。 对 于 事务 型 的 系统 ， 这 是 无 法 避免 的 ， 所 以 应 用 程序 在 设计 时 必须 
考虑 如 何 处 理 死 锁 。 大 多 数 情况 下 只 需要 重新 执行 因 死 锁 回 滚 的 事务 即 
a. 





133 ”事务 日 志 


事务 日 志 可 以 帮助 提高 事务 的 效率 。 使 用 事务 日 志 ， 存 储 引 擎 在 修 
改 表 的 数据 时 只 需要 修改 其 内 存 拷贝 ， 再 把 该 修改 行为 记录 到 持久 在 硬 
盘 上 的 事务 日 志 中 ， 而 不 用 每 次 都 将 修改 的 数据 本 身 持 久 到 磁盘 。 事 务 

志和 采用 的 是 退 加 的 方式 ， 因 此 写 日 志 的 操作 是 磁盘 上 一 小 块 区 域内 的 
顺序 IO， 而 不 像 随机 IO 需要 在 磁盘 的 多 个 地 方 移动 磁头 ， 所 以 采用 事 
务 日 志 的 方式 相对 来 说 要 快 得 多 。 事 务 日 志 持 久 以 后 ， 内 存 中 被 修改 的 
数据 在 后 台 可 以 慢 慢 地 刷 回 到 磁盘 。 目 前 大 多 数 存 储 引擎 都 是 这 样 实现 
的 ， 我 们 通常 称 之 为 预 写 式 日 志 (Write-Ahead Logging) ， 修 改 数据 需 
要 写 两 次 磁盘 。 

















如 果 数 据 的 修改 已 经 记录 到 事务 日 志 并 持久 化 ， 但 数据 本 号 还 没有 
leet, UCN AR Sta, Ae S| SATE HE JAIN Hes A KR BME CL 
的 数据 。 有 基体 的 恢复 方式 则 视 存 储 引 擎 而 定 。 











1.3.4 MySQL 中 的 事务 

MySQL 提 供 了 两 种 事务 型 的 存储 引擎 : InnoDBAINDB Cluster. 7) 
外 还 有 一 些 第 三 方 存储 引擎 也 文 持 事务 ， 比 较 知 名 的 包括 XtraDB 和 
PBXT。 后 面 将 详细 讨论 它们 各 自 的 一 些 特点 。 


自动 提交 (AUTOCOMMIT) 


MySQL 默 认 采 用 自动 提交 CAUTOCOMMIT) 模式 。 也 就 是 说 ， 如 果 


AN THEFT Oa PSE WBE AS EE AB Be SE BSS AT EER 
作 。 在 当前 连接 中 ， 可 以 通过 设置 AUTOCOMMIT 变 量 来 启用 或 者 禁用 自动 
提交 模式 : 





| autocommit | ON | 
+--------------- +------- + 
1 row in set (0.00 sec) 
mysql> SET AUTOCOMMIT = 1; 


1 或 者 ON 表示 局 用 ，0 或 者 0FF 表 示 禁 用 。 当 AUTOCOMMIT=0 时 ， 所 有 
的 查询 都 是 在 一 个 事务 中 ， 直 到 显 式 地 执行 COMMIT 提 交 或 者 ROLLBACK 回 
滚 ， 访 事务 结束 ， 同 时 又 开始 了 另 一 个 新 事务 。 修 改 AUTOCOMMIT 对 非 事 
务 型 的 表 ， 比 如 MyISAM 或 者 内 存 表 ， 不 会 有 任何 影响 。 对 这 类 表 来 
说 ， 没 有 COMMIT 或 者 ROLLBACK 的 概念 ， 也 可 以 说 是 相当 于 一 直 处 于 
AUTOCOMMIT 启 用 的 模式 。 














另外 还 有 一 些 命令 ， 在 执行 之 前 会 强制 执行 COMMIT 提 交 当 前 的 活动 
事务 。 典 型 的 例子 ， 在 数据 定义 语言 (DDL) 中 ， 如 果 是 会 导致 大 量 数 
据 改 变 的 操作 ， 比 如 ALTER _ TABLE， 就 是 如 此 。 另 外 还 有 LOCK TABLES 等 
其 他 语句 也 会 导致 同样 的 结果 。 如 果 有 需要 ， 请 检查 对 应 版 本 的 官方 文 
档 来 确认 所 有 可 能 导致 自动 提交 的 语句 列表 。 











MySQL 可 以 通过 执行 SET TRANSACTION ISOLATION _ LEVEL 命令 来 设 
置 隔离 级 别 。 新 的 隔离 级 别 会 在 下 一 个 事务 开始 的 时 候 生 效 。 可 以 在 配 
置 文件 中 设置 整个 数据 库 的 隔离 级 别 ， 也 可 以 只 改变 当前 会 话 的 隔离 级 


Fall 





mysql> SET SESSION TRANSACTION ISOLATION LEVEL READ COMMITTED 


MySQL 能 够 识别 所 有 的 4 个 ANSI 陋 离 级 别 ，InnoDB 引 擎 也 文 持 所 
有 的 隔离 级 别 。 


在 事务 中 混合 使 用 存储 引擎 





MySQL 服 务 嚣 层 不 定理 事务 ， 事 务 是 由 下 层 的 存储 引擎 实现 的 。 
所 以 在 同一 个 事务 中 ， 使 用 多 种 存储 引擎 是 不 可 靠 的 。 








如 果 在 事务 中 混合 使 用 了 事务 型 和 非 事务 型 的 表 〈 例 如 InnoDB 和 
MyISAM 表 ) ， 在 正常 提交 的 情况 下 不 会 有 什么 问题 。 


但 如 果 该 事务 需要 回 深 ， 非 事务 型 的 表 上 的 变更 就 无 法 撤销 ， 这 会 
导致 数据 库 处 于 不 一 致 的 状态 ， 这 种 情况 很 难 修复 ， 事 务 的 最 终结 果 将 
无 法 确定 。 所 以 ， 为 每 张 表 选择 合适 的 存储 引擎 非常 重要 。 


在 非 事务 型 的 表 上 执行 事务 相关 操作 的 时 候 ，MySQL 通 党 不 会 用 
出 提醒 ， 也 不 会 报错 。 有 了 时候 只 有 回 深 的 时 候 才 会 发 出 一 个 警告 :;“ 某 
些 非 事务 型 的 表 上 的 变更 不 能 被 回 深 *。 但 大 多 数 情况 下 ， 对 非 事 务 型 
表 的 操作 都 不 会 有 提示 。 











隐 式 和 显 式 锁定 


InnoDB 采 用 的 是 两 阶段 锁定 协议 (two-phase locking protocol) 。 在 
事务 执行 过 程 中 ， 随 时 都 可 以 执行 锁定 ， 锁 只 有 在 执行 COMMI1T 或 
者 ROLLBACK 的 时 候 才 会 释放 ， 并 且 所 有 的 锁 是 在 同一 时 刻 被 释放 。 前 面 
描述 的 锁定 都 是 隐 式 锁定 ，InnoDB 会 根据 隔离 级 别 在 需要 的 时 候 自 动 
加 锁 。 





另外 ，InnoDB 也 支持 通过 特定 的 语句 进行 显 式 锁 定 ， 这 些 语句 不 
属于 SQL 规范 包 : 


e SELECT ... LOCK IN SHARE MODE 
e SELECT ... FOR UPDATE 


MySQL 也 支持 LOCK TABLES 和 UNLOCK TABLES 语 句 ， 这 是 在 服务 器 
层 实现 的 ， 和 存储 引擎 无 关 。 它 们 有 自己 的 用 途 ， 但 并 不 能 替代 事务 处 
理 。 如 果 应 用 需要 用 到 事务 ， 还 是 应 该 选择 事务 型 存储 引擎 。 








经 常 可 以 发 现 ， 应 用 已 经 将 表 从 MyISAM 转 换 到 InnoDB， 但 还 是 显 
式 地 使 用 LOCK ”TABLES 语 句 。 这 不 但 没有 必要 ， 还 会 严重 影响 性 能 ， 实 
际 上 InnoDB 的 行 级 锁 工 作 得 更 好 。 


a 


Rea LOCK TABLES 和 事务 之 间 相 互 影响 的 话 ， 情 况 会 变 得 非常 复杂 ， 在 某 些 MySQL 版 


























本 中 甚至 会 产生 无 法 预料 的 结果 。 因 此 ， 本 书 建议 ， 除 了 事务 中 禁用 了 AUTOCOMMIT， 可 以 使 
用 LOCK TABLES 之 外 ， 其 他 任何 时 候 都 不 要 显 式 地 执行 LOCK TABLES， 不 管 使 用 的 是 什么 存储 引 
=, 























14 多 版 本 并 发 控制 


MySQL 的 大 多 数 事务 型 存储 引擎 实现 的 都 不 是 简单 的 行 级 锁 。 基 
于 提升 并 发 性 能 的 考虑 ， 它 们 一 般 都 同时 实现 了 多 版 本 并 发 控制 
(MVCC) 。 不 仅 是 MySQL， 包 括 Oracle、PostgreSQL 等 其 他 数据 库 系 
统 也 都 实现 了 MVCC， 但 各 自 的 实现 机 制 不 尽 相 同 ， 因 为 MVCC 没 有 一 
个 统一 的 实现 标准 。 








可 以 认为 MVCC 是 行 级 锁 的 一 个 变种 ， 但 是 它 在 很 多 情况 下 避免 了 
加 锁 操 作 ， 因 此 开销 更 低 。 虽 然 实现 机 制 有 所 不 同 ， 但 大 都 实现 了 非 阻 
去 的 读 操 作 ， 写 操作 也 只 锁定 必要 的 行 。 











MVCC 的 实现 ， 是 通过 保存 数据 在 某 个 时 间 扣 的 快照 来 实现 的 。 也 
就 是 说， 不 管 需要 执行 多 长 时 间 ， 每 个 事务 看 到 的 数据 都 是 一 致 的 。 根 
据 事 务 开始 的 时 间 不 同 ， 每 个 事务 对 同一 张 表 ， 同 一 时 刻 看 到 的 数据 可 
能 是 不 一 样 的 。 如 果 之 前 没有 这 方面 的 概念 ， 这 人 句 话 听 起 来 就 有 点 迷 
惑 。 熟 悉 了 以 后 会 发 现 ， 这 人 句 话 其 实 还 是 很 容易 理解 的 。 














前 面 说 到 不 同 存储 引擎 的 MVCC 实 现 是 不 同 的 ， 典 型 的 有 乐观 
(optimistic〉 并 发 控制 和 莫 观 (pessimistic〉 并 发 控制 。 下 面 我 们 通过 
InnoDB 的 简化 版 行为 来 说 明 MVCC 是 如 何 工作 的 。 








InnoDB 的 MVCC， 是 通过 在 每 行 记录 后 面 保存 两 个 隐藏 的 列 来 实现 
的 。 这 两 个 列 ， 一 个 保存 了 行 的 创建 时 间 ， 一 个 保存 行 的 过 期 时 间 (或 
删除 时 间 ) 。 当 然 存 储 的 并 不 是 实际 的 时 间 值 ， 而 是 系统 版 本 号 
(system version number) 。 每 开始 一 个 新 的 事务 ， 系 统 版 本 号 都 会 自 





动 递 增 。 事 务 开始 时 刻 的 系统 版 本 号 会 作为 事务 的 版 本 号 ， 用 来 和 查询 
到 的 每 行 记 录 的 版 本 号 进行 比较 。 下 面 看 一 下 在 REPEATABLE READ 隔离 
级 别 下 ，MVCC 有 具体 是 如 何 操作 的 。 


SELECT 





InnoDB 会 根据 以 下 两 个 条 件 检查 每 行 记 录 : 


a. InnoDB A BRA AE SES RA BT Ca 
是 ， 行 的 系统 版 本 写 小 于 或 等 于 事务 的 系统 版 本 号 ) ， 这 
样 可 以 确保 事务 读 取 的 行 ， 要 么 是 在 事务 开始 前 已 经 存在 
的 ， 要 么 是 事务 上 自身 插入 或 者 修改 过 的 。 

b. 行 的 删除 版 本 要 么 未 定义 ， 要 么 大 于 当前 事务 版 本 写 。 这 
可 以 确保 事务 读 取 到 的 行 ， 在 事务 开始 之 前 未 被 删除 。 








只 有 符合 上 述 两 个 条 件 的 记录 ， 才 能 返回 作为 查询 结果 。 














INSERT 
InnoDB 为 新 插入 的 每 一 行 保存 当前 系统 版 本 号 作为 行 版 本 

Er 

DELETE 
InnoDB 为 删除 的 每 一 行 保存 当前 系统 版 本 号 作为 行 删 除 标 

识 。 

UPDATE 











InnoDB 为 插入 一 行 新 记录 ， 保 存 当 前 系统 版 本 写作 为 行 版 本 
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保存 这 两 个 额外 系统 版 本 号 ， 使 大 多 数 读 操作 都 可 以 不 用 加 锁 。 这 
样 设计 使 得 读数 据 操作 很 简单 ， 性 能 很 好 ， 并 且 也 能 保证 只 会 读 取 到 符 
合 标准 的 行 。 不 足 之 处 是 每 行 记 录 都 需要 额外 的 存储 空间 ， 需 要 做 更 多 
的 行 检查 工作 ， 以 及 一 些 额外 的 维护 工作 。 











MVCC 只 在 REPEATABLE READ 和 READ COMMITTED 两 个 隔离 级 别 下 工 
作 。 其 他 两 个 隔离 级 别 都 和 MVCC 不 兼容 时， 因为 READ UNCOMM1ITTED 总 
是 读 取 最 新 的 数据 行 ， 而 不 是 符合 当前 事务 版 本 的 数据 行 。 

而 SER1AL1ZABLE 则 会 对 所 有 读 取 的 行 都 加 锁 。 





1.5 MySQL 的 存储 引擎 


本 节 只 是 概要 地 摘 述 MYSQL 的 存储 引擎 ， 而 不 会 涉及 太 多 细节 。 
因为 天 于 存储 引擎 的 讨论 及 其 相关 特性 将 会 员 罕 全 书 ， 而 且 本 书 也 不 是 
存储 引擎 的 完全 指南 ， 所 以 有 必要 阅读 相关 存储 引擎 的 官方 文档 。 


在 文件 系统 中 ，MySQL 将 每 个 数据 库 ( 也 可 以 称 之 为 schema) 保 
存 为 数据 目录 下 的 一 个 子 目 录 。 创 建 表 时 ，MySQL 会 在 数据 库 子 目录 
下 创建 一 个 和 表 同 名 的 .frm 文 件 保 存 表 的 定义 。 例 如 创建 一 个 名 
为 MyTable 的 表 ，MySQL 会 在 MyTable.frm 文 件 中 保存 该 表 的 定义 。 因 为 
MySQL 使 用 文件 系统 的 目录 和 文件 来 保存 数据 库 和 表 的 定义 ， 大 小 写 
敏感 性 和 具体 的 平台 密切 相关 。 在 Windows 中 ， 大 小 写 是 不 敏感 的 ， 而 
在 类 Unix 中 则 是 敏感 的 。 不 同 的 存储 引擎 保存 数据 和 索引 的 方式 是 不 同 
的 ， 但 表 的 定义 则 是 在 MySQL 服 务 层 统一 处 理 的 。 





可 以 使 用 SHOW TABLE STATUS 命令 〈 在 MySQL 5.0 以 后 的 版 本 中 ， 
也 可 以 查询 INFORMATION_SCHEMA 中 对 应 的 表 ) 显示 表 的 相关 信息 。 例 
如 ， 对 于 mysql 数 据 库 中 的 user 表 : 





mysql> SHOW TABLE STATUS LIKE '‘user' \G 
FOI ICI IOI IO ICI IO IO ICI ICI J, pow FRI IO I IO II IOI A ak 
Name: user 
Engine: MyISAM 
Row_format: Dynamic 
Rows: 6 


Avg_row_length: 59 


Data_length: 356 
Max_data_length: 4294967295 
Index_length: 2048 
Data_free: 0 
Auto_increment: NULL 
Create_time: 2002-01-24 18:07:17 
Update_time: 2002-01-24 21:56:29 
Check_time: NULL 
Collation: utf8_bin 
Checksum: NULL 
Create_options: 
Comment: Users and global privileges 


1 row in set (0.00 sec) 


输出 的 结果 表明 ， 这 是 一 个 MyISAM 表 。 和 输出 中 还 有 很 多 其 他 信息 
以 及 统计 信息 。 下 面 简 单 介绍 一 下 每 一 行 的 含义 。 


Name 
表 名 。 


Engine 


表 的 存储 引擎 类 型 。 在 旧版 本 中 ， 该 列 的 名 字 叫 Type， 而 不 


是 Engine。 
Row_ format 


行 的 格式 。 对 于 MyISAM 表 ， 可 选 的 值 为 Dynamic、Fixed 或 





者 Compressed。Dynamic 的 行 长 度 是 可 变 的 ， 一 般 包 含 可 变 长 度 的 
字段 ， 如 VARCHAR 或 BLOB。Fixed 的 行 长 度 则 是 固定 的 ， 只 包含 固定 
长 度 的 列 ， 如 CHAR 和 1NTEGER。Compressed 的 行 则 只 在 压缩 表 中 存 
在 ， 请 参考 第 19 页 “MyISAM 压 缩 表 ”一 节 。 











Rows 


表 中 的 行 数 。 对 于 MyISAM 和 其 他 一 些 存 储 引 擎 ， 该 值 是 精确 
的 ， 但 对 于 InnoDB， 该 值 是 估计 值 。 


Avg_row_length 

平均 每 行 包 含 的 字 节 数 。 
Data_length 

表 数 据 的 大 小 (以 字 节 为 单位 〉。 


Max_data_length 








表 数 据 的 最 大 容量 ， 该 值 和 存储 引擎 有 关 。 
Index_length 
索引 的 大 小 《以 字 节 为 单位 ) 。 


Data free 





对 于 MyISAM 表 ， 表 示 已 分 配 但 目前 没有 使 用 的 空间 。 这 部 分 
空间 包括 了 之 前 删除 的 行 ， 以 及 后 续 可 以 被 INSERT 利 用 到 的 空 


间 。 
Auto_increment 
下 一 个 AUTO_INCREMENT 的 值 。 
Create time 
表 的 创建 时 间 。 


Update time 





表 数 据 的 最 后 修改 时 间 。 


Check_time 





使 用 CKECK TABLE 命 令 或 者 myisamchk 工 具 最 后 一 次 检查 表 的 时 
间 。 


Collation 

表 的 默认 字符 集 和 字符 列 排序 规则 。 
Checksum 

如 果 局 用 ， 保 存 的 是 整个 表 的 实时 校 验 和 。 
Create options 


创建 表 时 指定 的 其 他 选项 。 


Comment 


该 列 包含 了 一 些 其 他 的 额外 信息 。 对 于 MyISAM 表 ， 保 存 的 是 
表 在 创建 时 带 的 注释 。 对 于 InnoDB 表 ， 则 保存 的 是 InnoDB 表 空间 
的 剩余 空间 信息 。 如 果 是 一 个 视图 ， 则 该 列 包 含 *VIEW” 的 文本 字 
样 。 


1.5.1 InnoDB 存 储 引 擎 


InnoDB 是 MySQL 的 默认 事务 型 引擎 ， 也 是 最 重要 、 使 用 最 广泛 的 
存储 引擎 。 它 被 设计 用 来 处 理 大 量 的 短期 (short-lived) 事务 ， 短 期 事 
务 大 部 分 情况 是 正常 提交 的 ， 很 少 会 被 回 深 。InnoDB 的 性 能 和 自动 崩 
尝 恢 复 特 性 ， 使 得 它 在 非 事务 型 存储 的 需求 中 也 很 流行 。 除 非 有 非常 特 
列 的 原因 需要 使 用 其 他 的 存储 引擎 ， 否 则 应 该 优先 考虑 InnoDB 引 擎 。 
如 果 要 学 习 存 储 引 擎 ，InnoDB 也 是 一 个 非常 好 的 值得 花 最 多 的 时 间 去 
深入 学 习 的 对 象 ， 收 益 肯 定 比 将 时 间 平 均 花 在 每 个 存储 引擎 的 学 习 上 要 


高 得 多 。 














InnoDB 的 历史 


InnoDB 有 着 复杂 的 发 布 历史 ， 了 解 一 下 这 段 历史 对 于 理解 InnoDB 
很 有 帮助 。2008 年 ， 发 布 了 所 谓 的 InnoDB plugin， 适 用 于 MySQL 5.1 版 
本 ， 但 这 是 Oracle 创 建 的 下 一 代 InnoDB 引 擎 ， 其 拥有 者 是 InnoDB 而 不 是 
MySQL。 这 基于 很 多 原因 ， 这 些 原 因 如 果 要 一 一 道 来 ， 巩 人 得 喝 掉 好 
几 桶 啤酒 。MySQL 默 认 还 是 选择 了 集成 上 昌 的 InnoDB 引 擎 。 当 然 用 户 可 
以 自行 选择 使 用 新 的 性 能 更 好 、 扩 展 性 更 佳 的 mnoDB plugin 来 覆盖 旧 的 








版 本 。 直 到 最 后 ， 在 Oracle 收 购 了 Sun 公 司 后 发 布 的 MySQL 5.5 中 才 彻 底 
使 用 mnoDB plugin 蔡 代 了 旧版 本 的 mnoDB (是 的 ， 这 也 意味 着 InnoDB 
plugin 己 经 是 原生 编译 了 ， 而 不 是 编译 成 一 个 插件 ， 但 名 字 已 经 约定 俗 
成 很 难 更 改 ) 。 





这 个 现代 的 InnoDB 版 本 ， 也 就 是 MySQL 5.1 中 所 谓 的 InnoDB 
plugin， 文 持 一 些 新 特性 ， 诸 如 利用 排序 创建 索引 (building index by 
sorting) 、 删 除 或 者 增加 索引 时 不 需要 复制 全 表 数 据 、 新 的 文 持 压缩 的 
存储 格式 、 新 的 大 型 列 值 如 BLOB 的 存储 方式 ， 以 及 文件 格式 管理 等 。 
很 多 用 户 在 MySQL 5.1 中 没有 使 用 InnoDB plugin， 或 许 是 因为 他 们 没有 
注意 到 有 这 个 区 别 。 所 以 如 果 你 使 用 的 是 MySQL 5.1， 一 定 要 使 用 
InnoDB plugin， 真 的 比 旧 版 本 的 InnoDB 要 好 很 多 。 





InnoDB 是 一 个 很 重要 的 存储 引擎 ， 很 多 个 人 和 公司 都 对 其 页 献 代 
码 ， 而 不 仅仅 是 Oracle 公 司 的 开发 团队 。 一 些 重要 的 贡献 者 包括 
Google, Yasufumi Kinoshita、Percona、Facebook 等 ， 他 们 的 一 些 改进 被 
直接 移植 到 官方 版 本 ， 也 有 一 些 由 InnoDB 团 队 重 新 实现 。 在 过 去 的 几 
年 间 ，InnoDB 的 改进 速度 大 大 加 快 ， 主 要 的 改进 集中 在 可 测量 性 、 可 
扩展 性 、 可 配置 化 、 性 能 、 各 种 新 特性 和 对 Windows 的 文 持 等 方面 。 
MySQL 5.6 实 验 室 预览 版 和 里 程 碑 版 也 包含 了 一 系列 重要 的 InnoDB 新 特 
性 。 








为 改善 mnoDB 的 性 能 ，Oracle 投 入 了 大 量 的 资源 ， 并 做 了 很 多 时 有 
成 效 的 工作 (外 部 贡献 者 对 此 也 提供 了 很 大 的 帮助 )。 在 本 书 的 第 二 版 
中 ， 我 们 注意 到 在 超过 四 核 CPU 的 系统 中 InnoDB 表 现 不 佳 ， 而 现在 已 经 
可 以 很 好 地 扩展 至 24 核 的 系统 ， 甚 至 在 某 些 场景 ，32 核 或 者 更 多 核 的 系 
统 中 也 表现 民 好 。 很 多 改进 将 在 即将 发 布 的 MySQL 5.6 中 引入 ， 当 然 也 
还 有 机 会 做 更 进一步 的 改善 。 








InnoDB 概 览 





InnoDB 的 数据 存储 在 表 空间 (tablespace) 中 ， 表 空间 是 由 InnoDB 
管理 的 一 个 黔 盒子， 由 一 系列 的 数据 文件 组 成 。 在 MySQL 4.1 以 后 的 版 
本 中 ，InnoDB 可 以 将 每 个 表 的 数据 和 索引 存放 在 单独 的 文件 中 。 
InnoDB 也 可 以 使 用 裸 设备 作为 表 空 间 的 存储 介质 ， 但 现代 的 文件 系统 
使 得 裸 设备 不 再 是 必要 的 选择 。 





InnoDB 采 用 MVCC 来 文 持 高 并 有 发， 并 且 实 现 了 四 个 标准 的 隔离 级 
别 。 其 默认 级 别 是 REPEATABLE READ (可 重复 读 ) ， 并 且 通 过 间隙 锁 
Cnext-key locking) 策略 防止 约 读 的 出 现 。 间 隐 锁 使 得 InnoDB 不 仅仅 锁 
定 碍 询 涉及 的 行 ， 还 会 对 索引 中 的 间 隐 进行 锁定 ， 以 防止 幻影 行 的 插 
xe 








InnoDB 表 是 基于 聚 簇 索引 建立 的 ， 我 们 会 在 后 面 的 章节 详细 讨论 
聚 复 索 引 。InnoDB 的 索引 结构 和 MySQL 的 其 他 存储 引擎 有 很 大 的 不 
同 ， 聚 簇 索 引 对 主键 查询 有 很 高 的 性 能 。 不 过 它 的 二 级 索引 (secondary 
index， 非 主键 索引 ) 中 必须 包含 主键 列 ， 所 以 如 果 主 键 列 很 大 的 话 ， 
其 他 的 所 有 索引 都 会 很 大 。 因 此 ， 寿 表 上 的 索引 较 多 的 话 ， 主 键 应 当 尺 
可 能 的 小 。InnoDB 的 存储 格式 是 平台 独立 的 ， 也 就 是 说 可 以 将 数据 和 
索引 文件 从 Intel 平 台 复制 到 PowerPC 或 者 Sun SPARC 平 台 。 








InnoDB 内 部 做 了 很 多 优化 ， 包 括 从 磁盘 读 取 数据 时 采用 的 可 预测 
性 预 读 ， 能 够 自动 在 内 存 中 创建 hash 索 引 以 加 速 读 操作 的 自 适 应 哈 希 索 
5| Cadaptive hash index) ， 以 及 能 够 加 速 插入 操作 的 插入 绥 冲 区 Cinsert 
buffer) 等 。 本 书后 面 将 更 详细 地 讨论 这 些 内 容 。InnoDB 的 行为 是 非常 
复杂 的 ， 不 容易 理解 。 如 果 使 用 了 InnoDB 引 擎 ， 笔 者 强烈 建议 阅读 官 





方 手册 中 的 “InnoDB 事 务 模型 和 锁 ” 一 节 。 如 果 应 用 程序 基于 InnoDB 构 
建 ， 则 事先 了 解 一 下 InnoDB 的 MVCC 架 构 带 来 的 一 些微 妙 和 细节 之 处 是 
非常 有 必要 的 。 存 储 引 擎 要 为 所有 用 户 甚 至 包括 修改 数据 的 用 户 维持 一 
致 性 的 视图 ， 是 非常 复杂 的 工作 。 





作为 事务 型 的 存储 引擎 ，InnoDB 通 过 一 些 机 制 和 工具 支持 真正 的 
热 备份 ，Oracle 提 供 的 MySQL Enterprise Backup、Percona 提 供 的 开源 的 
XtraBackup 都 可 以 做 到 这 一 点 。MySQL 的 其 他 存储 引擎 不 文 持 热 备 份 ， 
要 获取 一 致 性 视图 需要 停止 对 所 有 表 的 号 入 ， 而 在 读 写 混合 场景 中 ， 停 
止 写 入 可 能 也 意味 着 停止 读 取 。 





1.5.2 MyISAM 和 存储 引 苟 


在 MySQL 5.1 及 之 前 的 版 本 ，MyISAM 是 默认 的 存储 引擎 。 
MyISAM 提 供 了 大 量 的 特性 ， 包 括 全 文 索引 、 压 缩 、 空 间 函 数 (GIS) 
等 ， 但 MyISAM 不 文 持 事务 和 行 级 锁 ， 而 且 有 一 个 毫 无 疑问 的 缺陷 就 是 
骨 溃 后 无 法 安全 恢复 。 正 是 由 于 MyISAM 引 擎 的 缘故 ， 即 使 MySQL 支 持 
事务 已 经 很 长 时 间 了 ， 在 很 多 人 的 概念 中 MySQL 还 是 非 事务 型 的 数据 
库 。 尽 管 MyISAM 引 擎 不 文 持 事务 、 不 文 持 骨 让 后 的 安全 恢复 ， 但 它 绝 
不 是 一 无 是 处 的 。 对 于 只 读 的 数据 ， 或 者 表 比 较 小 、 可 以 忍受 修复 
(repair) 操作 ， 则 依然 可 以 继续 使 用 MyISAM 但 请 不 要 默认 使 用 
MyISAM， 而 是 应 当 默 认 使 用 InnoDB) 。 








存储 


MyISAM 会 将 表 存 储 在 两 个 文件 中 数据 文件 和 索引 文件 ， 分 别 


以 .MYD 和 .MYI 为 扩展 名 。MyISAM 表 可 以 包含 动态 或 者 静态 (长 度 固 
KE) 行 。MySQL 会 根据 表 的 定义 来 决定 采用 何 种 行 格 式 。MyISAM 表 可 
以 存储 的 行 记录 数 ， 一 般 受 限于 可 用 的 磁盘 空间 ， 或 者 操作 系统 中 单个 
文件 的 最 大 尺寸 。 











在 MySQL 5.0 中 ，MyISAM 表 如 果 是 变 长 行 ， 则 默认 配置 只 能 处 理 
256TB 的 数据 ， 因 为 指向 数据 记录 的 指针 长 度 是 6 个 字 节 。 而 在 更 早 的 
版 本 中 ， 指 针 长 度 默认 是 4 字 节 ， 所 以 只 能 处 理 4GB 的 数据 。 而 所 有 的 
MySQL 版 本 都 支持 8 字 节 的 指针 。 要 改变 MyISAM 表 指针 的 长 度 〈 调 高 
或 者 调 低 ) ， 可 以 通过 修改 表 的 MAX_ROWS 和 AVG_ROW_LENGTH 选 项 的 值 来 
实现 ， 两 者 相 乘 就 是 表 可 能 达到 的 最 大 大 小 。 修 改 这 两 个 参数 会 导致 重 
建 整 个 表 和 表 的 所 有 索引 ， 这 可 能 需要 很 长 的 时 间 才 能 完成 。 





MyISAM 特 性 


作为 MySQL 最 早 的 存储 引 苟 之 一 ，MyISAM 有 一 些 已 经 开发 出 来 很 
多 年 的 特性 ， 可 以 满足 用 户 的 实际 需求 。 


加 锁 与 并 发 


MyISAM 对 整 张 表 加 锁 ， 而 不 是 针对 行 。 读 取 时 会 对 需要 读 到 
的 所 有 表 加 共享 锁 ， 写 入 时 则 对 表 加 排他 锁 。 但 是 在 表 有 读 取 和 码 询 
的 同时 ， 也 可 以 往 表 中 插入 新 的 记录 〈 这 被 称 为 并 发 插入 ， 
CONCURRENT INSERT) 。 
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对 于 MyISAM 表 ，MySQL 可 以 手工 或 者 自动 执行 检查 和 修复 操 
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表 的 修复 可 能 导致 一 些 数据 丢失 ， 而 且 修 复 操 作 是 非常 慢 的 。 可 以 
通过 CHECK TABLE mytab le 检查 表 的 错误 ， 如 果 有 错误 可 以 通过 执 
行 REPAIR TABLE mytable 进 行 修复 。 另 外 ， 如 果 MySQL 服 务 器 已 
经 关闭 ， 也 可 以 通过 myisamcjk 命 令 行 工具 进行 检查 和 修复 操作 。 





索引 特性 


对 于 MyISAM 表 ， 即 使 是 BLOB 和 TEXT 等 长 字段 ， 也 可 以 基于 
其 前 500 个 字符 创建 索引 。MyISAM 也 支持 全 文 索引 ， 这 是 一 种 基 
于 分 词 创 建 的 索引 ， 可 以 支持 复杂 的 查询 。 关 于 索引 的 更 多 信息 请 
参考 第 5 章 。 


延迟 更 新 索引 键 (Delayed Key Write) 


创建 MyISAM 表 的 时 候 ， 如 采 指 定 了 DELAY_KEY_WRITE 选 项 ， 
在 每 次 修改 执行 完成 时 ， 不 会 立刻 将 修改 的 索引 数据 写 入 磁盘 ， 而 
是 会 写 到 内 存 中 的 键 缓冲 区 Cin-memory key buffer) ， 只 有 在 清理 
键 缓冲 区 或 者 关闭 表 的 时 候 才 会 将 对 应 的 索引 块 写 入 到 磁盘 。 这 种 
方式 可 以 极 大 地 提升 写 入 性 能 ， 但 是 在 数据 库 或 者 主机 月 尝 时 会 造 
成 驼 引 损坏 ， 需 要 执行 修复 操作 。 延 迟 更 新 索引 键 的 特性 ， 可 以 在 
全 局 设置 ， 也 可 以 为 单个 表 设 置 。 











MyISAM 压 缩 表 





如 果 表 在 创建 并 导入 数据 以 后 ， 不 会 再 进行 修改 操作 ， 那 么 这 样 的 
表 或 许 适 合 采用 MyISAM 压 缩 表 。 


可 以 使 用 myisampack 对 MyISAM 表 进行 压缩 〈 也 叫 打包 pack) . He 
缩 表 是 不 能 进行 修改 的 《除非 先 将 表 解 除 压 纵 ， 修 改 数据 ， 然 后 再 次 压 
缩 ) 。 压 缩 表 可 以 极 大 地 减少 磁盘 空间 占用 ， 因 此 也 可 以 减少 磁盘 
IO， 从 而 提升 查询 性 能 。 压 缩 表 也 文 持 索引 ， 但 索引 也 是 只 读 的 。 





以 现在 的 硬件 能 力 ， 对 大 多 数 应 用 场景 ， 读 取 压 缩 表 数据 时 的 解压 
带 来 的 开销 影响 并 不 大 ， 而 减少 MO 带 来 的 好 处 则 要 大 得 多 。 压 缩 时 表 
中 的 记录 是 独立 压缩 的 ， 所 以 读 取 单行 的 时 候 不 需要 去 解压 整个 表 (其 
至 也 不 解压 行 押 在 的 整个 页 面 ) 。 











MyISAM 性 能 





MyISAM3 引 擎 设计 简单 ， 数 据 以 紧密 格式 存储 ， 所 以 在 某 些 场 景 下 
的 性 能 很 好 。MyISAM 有 一 些 服务 器 级 别 的 性 能 扩展 限制 ， 比 如 对 索引 
键 缓冲 区 (key cache) 的 Mutex 锁 ，MariaDB 基 于 段 (segment) 的 索引 
键 缓冲 区 机 制 来 避免 该 问题 。 但 MyISAM 最 典型 的 性 能 问题 还 是 表 锁 的 
问题 ， 如 果 你 发 现 所 有 的 查询 都 长 期 处 于 “Locked” 状 态 ， 那 么 坚 无 疑问 
Se ae JERA H o 


1.5.3. ”MYSQL 内 建 的 其 他 存储 引擎 


MySQL 还 有 一 些 有 特殊 用 途 的 存储 引擎 。 在 新 版 本 中 ， 有 些 可 能 
因为 一 些 原因 已 经 不 再 支持 ， 男 外 还 有 些 会 继续 支持 ， 但 是 需要 明确 地 
局 用 后 才能 使 用 。 








Archive 5| # 


Archive 存 储 引 擎 只 支持 INSERT 和 SELECT 操作 ， 在 MySQL 5.1 之 前 也 
不 文 持 索引 。 


Archive 引 警 会 缓存 所 有 的 写 并 利用 zlib 对 插入 的 行进 行 压 缩 ， 所 以 
比 MyISAM 表 的 磁盘 IO 更 少 。 但 是 每 次 SELECT 碍 询 都 需要 执行 全 表 扫 
描 。 所 以 Archive 表 适合 日 志和 数据 采集 类 应 用 ， 这 类 应 用 做 数据 分 析 
时 往往 需要 全 表 扫 描 。 或 者 在 一 些 需要 更 快速 的 INSERT 操 作 的 场合 下 也 
可 以 使 用 。 











Archive 引 擎 文 持 行 级 锁 和 专用 的 缓冲 区 ， 所 以 可 以 实现 高 并 发 的 
插入 。 在 一 个 碍 询 开 始 直 到 返回 表 中 存在 的 所 有 行 数 之 前 ，Archive 引 
擎 会 阻止 其 他 的 SELECT 执行 ， 以 实现 一 致 性 读 。 另 外 ， 也 实现 了 批量 插 
入 在 完成 之 前 对 读 操 作 是 不 可 见 的 。 这 种 机 制 模仿 了 事务 和 MVCC 的 一 
些 特 性 ， 但 Archive 引 擎 不 是 一 个 事务 型 的 引擎 ， 而 是 一 个 针对 高 速 插 
入 和 压缩 做 了 优化 的 简单 引擎 。 
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据 ， 不 做 任何 保存 。 但 是 服务 器 会 记录 Blackhole 表 的 日 志 ， 所 以 可 以 用 
于 复制 数据 到 备 库 ， 或 者 只 是 简单 地 记录 到 日 志 。 这 种 特殊 的 存储 引擎 
可 以 在 一 些 特殊 的 复制 架构 和 日 志 审 核 时 发 挥 作用 。 但 这 种 应 用 方式 我 
们 碰 到 过 很 多 问题 ， 因 此 并 不 推荐 。 


CSV 引 擎 


CSV 引 擎 可 以 将 普通 的 CSV 文 件 (逗号 分 割 值 的 文件 ) 作 为 MySQL 
的 表 来 处 理 ， 但 这 种 表 不 支持 索引 。CSV 引 擎 可 以 在 数据 库 运 行 时 找 入 
或 者 找 出 文件 。 可 以 将 Excel 等 电子 表格 软件 中 的 数据 存储 为 CSV 文 
件 ， 然 后 复制 到 MySQL 数 据 目 录 下 ， 了 驶 能 在 MySQL 中 打开 使 用 。 同 
样 ， 如 果 将 数据 写 入 到 一 个 CSV 引 擎 表 ， 其 他 的 外 部 程序 也 能 立即 从 表 
的 数据 文件 中 读 取 CSV 格 式 的 数据 。 因 此 CSV 引 擎 可 以 作为 一 种 数据 交 
换 的 机 制 ， 非 常 有 用 。 





Federated 引 擎 


Federated 引 擎 是 访问 其 他 MySQL 服 务 器 的 一 个 代理 ， 它 会 创建 一 
个 到 远程 MySQL 服 务 器 的 客户 端 连接 ， 并 将 查询 传输 到 远程 服务 器 执 
行 ， 然 后 提取 或 者 发 送 需 要 的 数据 。 最 初 设计 该 存储 引擎 是 为 了 和 企业 
级 数据 库 如 Microsoft SQL Server 和 Oracle 的 类 似 特 性 竞争 的 ， 可 以 说 更 
多 的 是 一 种 市 场 行为 。 尺 管 该 引擎 看 起 来 提供 了 一 种 很 好 的 跨 服 务 絮 的 
灵活 性 ， 但 也 经 常 带 来 问题 ， 因 此 默认 是 禁用 的 。MariaDB 使 用 了 它 的 
一 个 后 续 改 进 版 本 ， 叫 做 FederatedX。 
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如 果 需 要 快速 地 访问 数据 ， 并 且 这 些 数据 不 会 被 修改 ， 重 局 以 后 丢 
失 也 没有 关系 ， 那 么 使 用 Memory 表 《以 前 也 叫做 HEAP 表 ) 是 非常 有 用 
的 。Memory 表 至 少 比 MyISAM 表 要 快 一 个 数量 级 ， 因 为 所 有 的 数据 都 
保存 在 内 存 中 ， 不 需要 进行 磁盘 IO。Memory 表 的 结构 在 重启 以 后 还 会 
保留 ， 但 数据 会 丢失 。 




















Memroy 表 在 很 多 场景 可 以 发 挥 好 的 作用 : 


。 用 于 查找 Cookup) 或 者 映射 (mapping) 表 ， 例 如 将 邮编 和 州 名 
映射 的 表 。 

。 用 于 缓存 周期 性 聚合 数据 (periodically aggregated data) 的 结 

。 用 于 保存 数据 分 析 中 产生 的 中 间 数 据 。 


Memory 表 文 持 Hash 索 引 ， 因 此 碍 找 操作 非常 快 。 虽 然 Memory 表 的 
速度 非常 快 ， 但 还 是 无 法 取代 传统 的 基于 磁盘 的 表 。Memroy 表 是 表 级 
锁 ， 因 此 并 发 写 入 的 性 能 较 低 。 它 不 文 持 BLOB 或 TEXT 类 型 的 列 ， 并 且 每 
行 的 长 度 是 固定 的 ， 所 以 即使 指定 了 VARCHAR 列 ， 实 际 存储 时 也 会 转换 
成 CHAR， 这 可 能 导致 部 分 内 存 的 浪费 (其 中 一 些 限 制 在 Percona 版 本 已 
经 解决 ) 。 








如 果 MySQL 在 执行 查询 的 过 程 中 需要 使 用 临时 表 来 保存 中 间 结 
果 ， 内 部 使 用 的 临时 表 就 是 Memory 表 。 如 果 中 间 结 果 太 大 超出 了 
Memory 表 的 限制 ， 或 者 含有 BL0B 或 TEXT 字段 ， 则 临时 表 会 转换 成 
MyISAM 表 。 在 后 续 的 章节 还 会 继续 讨论 该 问题 。 











| 全 人 们 经 常 混 淆 Memory 表 和 临时 表 。 临 时 表 是 指使 用 CREATE TEMPORARY TABLE 语 句 创 











建 的 表 ， 它 可 以 使 用 任何 存储 引擎 ， 因 此 和 Memory 表 不 是 一 回 事 。 临 时 表 只 在 单个 连接 中 可 
见 ， 当 连接 断 开 时 ， 临 时 表 也 将 不 复 存在 。 











Merge 引 擎 


Merge 引 擎 是 MyISAM 引 擎 的 一 个 变种 。Merge 表 是 由 多 个 MYISAM 
表 合 并 而 来 的 虚拟 表 。 如 果 将 MySQL 用 于 日 志 或 者 数据 仓库 类 应 用 ， 


该 引擎 可 以 发 挥 作 用 。 但 是 引入 分 区 功能 后 ， 该 引擎 已 经 被 放弃 Ss 
第 7 章 ) 。 
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2003 年 ， 当 时 的 MySQL AB 公 司 从 索尼 爱立信 公司 收购 了 NDB 数 据 
库 ， 然 后 开发 了 NDB 集 群 存 储 引 擎 ， 作 为 SQL 和 NDB 原 生 协 议 之 间 的 接 
口 。MySQL 服 务 器 、NDB 集 群 存 储 引擎 ， 以 及 分 布 式 的 、share-nothing 
的 、 容 灾 的 、 高 可 用 的 NDB 数 据 库 的 组 合 ， 被 称 为 MySQL 集 群 
(MySQL Cluster) 。 本 书后 续 会 有 章节 专门 来 讨论 MySQL 集 群 。 








15.4 第 三 方 存储 引擎 


MySQL 从 2007 年 开始 提供 了 插件 式 的 存储 引擎 API， 从 此 涌 出 了 一 
系列 为 不 同 目的 而 设计 的 存储 引擎 。 其 中 有 一 些 已 经 合并 到 MySQL 服 
务 器 ， 但 大 多 数 还 是 第 三 方 产品 或 者 开源 项 目 。 下 面 探讨 一 些 我 们 认为 
在 它 设计 的 场景 中 确实 很 有 用 的 第 三 方 存储 引擎 。 











OLTP 类 引擎 





Percona 的 XtraDB 存 储 引 擎 是 基于 InnoDB 引 擎 的 一 个 改进 版 本 ， 已 
经 包含 在 Percona Server 和 MariaDB 中 ， 它 的 改进 点 主要 集中 在 性 能 、 可 
测量 性 和 操作 灵活 性 方面 。XtraDB 可 以 作为 InhnoDB 的 一 个 完全 的 蔡 代 
产品 ， 甚 至 可 以 兼容 地 读 写 InnoDB 的 数据 文件 ， 并 支持 InnoDB 的 所 有 
查询 。 





另外 还 有 一 些 和 InnoDB 非 常 类 似 的 OLTP 类 存储 引擎 ， 比 如 都 文 持 
ACID 事务 和 MVCC。 其 中 一 个 驶 是 PBXT， 由 Paul McCullagh 和 
Primebase GMBH 开 发 。 它 文 持 引 擎 级 别 的 复制 、 外 键 约 束 ， 并 且 以 一 
种 比较 复杂 的 架构 对 固态 存储 (SSD) 提供 了 适当 的 支持 ， 还 对 较 大 的 
值 类 型 如 BLOB 也 做 了 优化 。PBXT 是 一 款 社区 支持 的 存储 引擎 ， 
MariaDB 包 含 了 该 引擎 。 


TokuDB 引 擎 使 用 了 一 种 新 的 叫做 分 形 树 (Fractal Trees) 的 索引 数 
据 结 构 。 访 结构 是 缓存 无 关 的 ， 因 此 即使 其 大 小 超过 内 存 性 能 也 不 会 下 
降 ， 也 就 没有 内 存 生 命 周期 和 碎片 的 问题 。TokuDB 是 一 种 大 数据 (Big 
Data) 存储 引擎 ， 因 为 其 拥有 很 高 的 压缩 比 ， 可 以 在 很 大 的 数据 量 上 创 
建 大 量 索 引 。 在 本 书写 作 时 ， 这 个 引擎 还 处 于 早期 的 生产 版 本 状态 ， 在 
并 发 性 方面 还 有 很 多 明显 的 限制 。 目 前 其 最 适合 在 需要 大 量 插入 数据 的 
分 析 型 数据 集 的 场景 中 使 用 ， 不 过 这 些 限制 可 能 在 后 续 版 本 中 解决 掉 。 











RethinkDB 最 初 是 为 固态 存储 CSSD) 而 设计 的 ， 然 而 随 着 时 间 的 
推移 ， 目 前 看 起 来 和 最 初 的 目标 有 一 定 的 差距 。 该 引擎 比较 特别 的 地 方 
在 于 采用 了 一 种 只 能 退 加 的 写 时 复制 B 树 Cappend-only copyon-write B- 
Tree) 作为 索引 的 数据 结构 。 目 前 还 处 于 早期 开发 状态 ， 我 们 还 没有 测 
试 评 估 过 ， 也 没有 上 听 说 有 实际 的 应 用 案例 。 

















在 Sun 收 购 MySQL AB 以 后 ，Falcon 存 储 引 警 曾 经 作为 下 一 代 存 储 引 
擎 被 寄予 期 户 ， 但 现在 该 项 目 已 经 被 取消 很 入 了 。EFalcon 的 主要 设计 者 
Jim Starkey 创 立 了 一 家 新 公司 ， 主 要 做 可 以 文 持 云 计算 的 NewSQL 数 据 
库 产 品 ， 叫 做 NuoDB 〈 之 前 叫 NimbusDB ) 。 


面向 列 的 存储 引擎 
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查询 也 是 以 行为 单位 处 理 的 。 而 在 大 数据 量 处 理 时 ， 面 向 列 的 方式 可 能 
效率 更 高 。 如 果 不 需 要 整 行 的 数据 ， 面 癌 列 的 方式 可 以 传输 更 少 的 数 
据 。 如 果 每 一 列 都 单独 存储 ， 那 么 压缩 的 效率 也 会 更 高 。 


Infobright 是 最 有 名 的 面向 列 的 存储 引擎 。 在 非常 大 的 数据 量 〈 数 十 
TB) 时 ， 该 引擎 工作 恨 好 。Infobright 是 为 数据 分 析 和 数据 仓库 应 用 设 
计 的 。 数 据 高 度 压 纵 ， 按 照 块 进行 排序 ， 每 个 块 都 对 应 有 一 组 元 数据 。 
在 处 理 查 询 时 ， 访 问 元 数据 可 决定 跳 过 该 块 ， 甚 至 可 能 只 需要 元 数据 即 
可 满足 查询 的 需求 。 但 该 引擎 不 支持 索引 ， 不 过 在 这 么 大 的 数据 量 级 ， 
即使 有 索引 也 很 难 发 挥 作用 ， 而 且 块 结构 也 是 一 种 准 索 引 Cquasi- 
index) 。Infobright 需 要 对 MySQL 服 务 器 做 定制 ， 因 为 一 些 地 方 需要 修 
改 以 适应 面 回 列 存 储 的 需要 。 如 果 碍 询 无 法 在 存储 层 使 用 面向 列 的 模式 
执行 ， 则 需要 在 服务 器 层 转换 成 按 行 处 理 ， 这 个 过 程 会 很 慢 。Infobright 
有 社区 版 和 商业 版 两 个 版 本 。 














另外 一 个 面向 列 的 存储 引擎 是 Calpont 公 司 的 InfiniDB， 也 有 社区 版 
和 商业 版 。IfiniDB 可 以 在 一 组 机 器 集 群 间 做 分 布 式 查 询 ， 但 目前 还 没 
有 生产 环境 的 应 用 案例 。 








顺便 提 一 下 ， 在 MySQL 之 外 ， 如 果 有 面向 列 的 存储 的 需求 ， 我 们 
也 评估 过 LucidDB 和 MonetDB。 在 我 们 的 MySQL 性 能 博客 马上 有 相应 的 
性 能 测试 数据 ， 或 许 随 着 时 间 的 推移 ， 这 些 数据 慢 慢 会 过 期 ， 但 依然 可 
以 作为 参考 。 





社区 存储 引擎 


如 果 要 列举 社区 提供 的 所 有 存储 引擎 ， 可 能 会 有 两 位 数 ， 甚 至 三 位 
数 。 但 是 负责 任 地 说 ， 其 中 大 部 分 影响 力 有 限 ， 很 多 可 能 都 没有 上 听 说 
过 ， 或 者 只 有 极 少 人 在 使 用 。 在 这 里 列举 了 一 些 ， 也 大 都 没有 在 生产 环 
境 中 应 用 过 ， 慎 用 ， 后 果 目 负 。 








Aria 





之 前 的 名 字 是 Maria， 是 MySQL 创 建 者 计划 用 来 蔡 代 MyISAM 
的 一 款 引 擎 。MariaDB 包 含 了 访 引 擎 ， 之 前 计划 开发 的 很 多 特性 ， 
有 些 因为 在 MariaDB 服 务 器 层 实现 ， 所 以 引擎 层 就 取消 了 。 在 本 书 
写作 之 际 ， 可 以 说 Aria 就 是 解决 了 月 演 安 全 恢复 问题 的 MyISAM， 
当然 也 还 有 一 些 特性 是 MyISAM 不 具备 的 ， 比 如 数据 的 缓存 
CMVYISAM 只 能 缓存 索引 ) o 


Groonga 


这 是 一 球 全 文案 引 引 擎 ， 写 称 可 以 提供 准确 而 高 效 的 全 文 索 
5] 0 


OQGraph 


该 引擎 由 Open Query 研 用， 文 持 图 操作 《比如 查找 两 点 之 间 的 
最 短路 径 ) ， 用 SQL 很 难 实 现 该 类 操作 。 


Q4M 


该 引擎 在 MySQL 内 部 实现 了 队列 操作 ， 而 用 SQL 很 难 在 一 个 语 
句 实现 这 类 队列 操作 。 


SphinxSE 





该 引擎 为 Sphinx 全 文 索引 搜索 服务 器 提供 了 SQL 接口 ， 在 附录 
F 中 将 做 进一步 的 详细 讨论 。 


Spider 


该 引擎 可 以 将 数据 切 分 成 不 同 的 分 区 ， 比 较 高 效 透明 地 实现 了 
分 片 (shard) ， 并 且 可 以 针对 分 片 执行 并 行 查 询 ( 分 片 可 以 分 布 在 
不 同 的 服务 器 上 ) 。 


VPForMySQL 


该 引擎 文 持 垂 直 分 区 ， 通 过 一 系列 的 代理 存储 引擎 实现 。 垂 直 
分 区 指 的 是 可 以 将 表 分 成 不 同 列 的 组 合 ， 并 且 单 独 存 储 。 但 对 碍 询 
来 说 ， 看 到 的 还 是 一 张 表 。 该 引擎 和 Spider 的 作者 是 同一 人 。 


15.5 ”选择 合适 的 引擎 


这 么 多 存储 引擎 ， 我 们 怎么 选择 ? 大 部 分 情况 下 ，InnoDB 都 是 正 
确 的 选择 ， 所 以 Oracle 在 MySQL 5.5 版 本 时 终于 将 InnoDB 作 为 默认 的 存 
储 引 擎 了 。 对 于 如 何 选择 存储 引擎 ， 可 以 简单 地 归纳 为 一 句 话 : “除非 
需要 用 到 某 些 InnoDB 不 具备 的 特性 ， 并 且 没 有 其 他 办 法 可 以 替代 ， 否 
则 都 应 该 优先 选择 InnoDB 引 擎 ”。 例 如 ， 如 果 要 用 到 全 文 索引 ， 建 议 优 
先 考虑 InnoDB 加 上 Sphinx 的 组 合 ， 而 不 是 使 用 文 持 全 文 索引 的 
MVyISAM。 当 然 ， 如 果 不 需 要 用 到 InnoDB 的 特性 ， 同 时 其 他 引擎 的 特性 
能 够 更 好 地 满足 需求 ， 也 可 以 考虑 一 下 其 他 存储 引擎 。 举 个 例子 ， 如 果 





不 在 乎 可 扩展 能 力 和 并 发 能 力 ， 也 不 在 乎 月 省 后 的 数据 丢失 问题 ， 却 对 
InnoDB 的 空间 占用 过 多 比较 敏感 ， 这 种 场合 下 选择 MYISAM 就 比较 合 





除非 万 不 得 已 ， 否 则 建议 不 要 混合 使 用 多 种 存储 引擎， 否则 可 能 带 
来 一 系列 复杂 的 问题 ， 以 及 一 些 潜 在 的 bug 和 边界 问题 。 存 储 引 警 层 和 
服务 器 层 的 交互 已 经 比较 复杂 ， 更 不 用 说 混合 多 个 存储 引擎 了 。 至 少 ， 
混合 存储 对 一 致 性 备份 和 服务 器 参数 配置 都 带 来 了 一 些 困难 。 








如 琳 应 用 需要 不 同 的 存储 引擎 ， 请 先 考 虑 以 下 儿 个 因 系 。 
事务 


如 果 应 用 需要 事务 支持 ， 那 么 InnoDB (或 者 XtraDB) 是 目前 
最 稳定 并 且 经 过 验证 的 选择 。 如 果 不 需 要 事务 ， 并 且 主 要 是 SELECT 
和 1NSERT 操 作 ， 那 么 MyISAM 是 不 错 的 选择 。 一 般 日 志 型 的 应 用 比 
较 符 合 这 一 特性 。 


备份 





备份 的 需求 也 会 影响 存储 引擎 的 选择 。 如 果 可 以 定期 地 关闭 服 
务 器 来 执行 备份 ， 那 么 备份 的 因素 可 以 忽略 。 反 之 ， 如 果 需 要 在 线 
热 备 份 ， 那 么 选择 InnoDB 就 是 基本 的 要 求 。 


AA a 








数据 量 比较 大 的 时 候 ， 系 统 骨 尝 后 如 何 快 速 地 恢复 是 一 个 需要 
考虑 的 问题 。 相 对 而 言 ，MyISAM 骨 溃 后 发 生 损 坏 的 概率 比 InnoDB 
要 高 很 多 ， 而 且 恢 复 速度 也 要 慢 。 因 此 ， 即 使 不 需要 事务 支持 ， 很 











多 人 也 选择 InnoDB 引 擎 ， 这 是 一 个 非常 重要 的 因素 。 
特有 的 特性 


最 后 ， 有 些 应 用 可 能 依赖 一 些 存 储 引 擎 所 独 有 的 特性 或 者 优 
化 ， 比 如 很 多 应 用 依赖 聚 复 索 引 的 优化 。 另 外 ，MySQL 中 也 只 有 
MyISAM 文 持 地 理 空 间 搜 索 。 如 果 一 个 存储 引擎 拥有 一 些 关 键 的 特 
性 ， 同 时 却 又 缺乏 一 些 必 要 的 特性 ， 那 么 有 时 候 不 得 不 做 折 中 的 考 
虑 ， 或 者 在 架构 设计 上 做 一 些 取舍 。 菜 些 存储 引擎 无 法 直接 支持 的 
特性 ， 有 时 候 通 过 变通 也 可 以 满足 需求 。 











你 不 需要 现在 就 做 决定 。 本 书 接 下 来 会 提供 很 多 关于 各 种 存储 引擎 
优 缺 点 的 详细 描述 ， 也 会 讨论 一 些 杂 构 设计 的 技巧 。 一 般 来 说 ， 可 能 有 
很 多 选项 你 还 没有 意识 到 ， 等 阅读 完 本 书 回 头 再 来 看 这 个 问题 可 能 更 有 
帮助 些 。 如 果 无 法 确定 ， 那 么 残 使 用 ImnoDB， 这 个 默认 选项 是 安全 
的 ， 尤 其 是 搞 不 消 楚 具体 需要 什么 的 时 候 。 





如 果 不 了 解 具 体 的 应 用 ， 上 面 提 到 的 这 些 概念 都 是 比较 抽象 的 。 所 
以 接 下 来 会 讨论 一 些 常 见 的 应 用 场景 ， 在 这 些 场 景 中 会 涉及 很 多 的 表 ， 
以 及 这 些 表 如 何 选用 合适 的 存储 引擎 ， 下 一 节 将 进行 一 些 总 结 。 


日 专 型 应 用 


假设 你 需要 实时 地 记录 一 台中 心 电 话 交 换 机 的 每 一 通电 话 的 日 志 到 
MySQL 中 ， 或 者 通过 Apache 的 mod_log_sql 模 块 将 网 站 的 所 有 访问 信息 
直接 记录 到 表 中 。 这 一 类 应 用 的 插入 速度 有 很 高 的 要 求 ， 数 据 库 不 能 成 
为 瓶颈 。MYyISAM 或 者 Archive 存 储 引 擎 对 这 类 应 用 比较 合适 ， 因 为 它们 











开销 低 ， 而 且 插 入 速度 非常 快 。 

















如 采 需 要 对 记录 的 日 志 做 分 析 报 表 ， 则 事情 就 会 变 得 有 趣 了 。 生 成 
报表 的 SQL 很 有 可 能 会 导致 插入 效率 明显 降低 ， 这 时 候 该 怎么 办 ? 





一 种 解决 方法 ， 是 利用 MySQL 内置 的 复制 方案 将 数据 复制 一 份 到 
备 库 ， 然 后 在 备 库 上 执行 比较 消耗 时 间 和 CPU 的 碍 询 。 这 样 主 库 只 用 于 
高 效 的 插入 工作 ， 而 备 库 上 执行 的 查询 也 无 须 担 心 影响 到 日 志 的 插入 性 
能 。 当 然 也 可 以 在 系统 负载 较 低 的 时 候 执行 报表 查询 操 作 ， 但 应 用 在 不 
断 变 化 ， 如 果 依赖 这 个 策略 可 能 以 后 会 导致 问题 。 











另外 一 种 方法 ， 在 日 志 记 录 表 的 名 字 中 包含 年 和 月 的 信息 ， 比 如 
web_logs 2012 01 或 者 web_logs 2012_jan。 这 样 可 以 在 已 经 没有 搬入 
操作 的 历史 表 上 做 频繁 的 查询 操作 ， 而 不 会 干扰 到 最 新 的 当前 表 上 的 插 
入 操作 。 


只 读 或 者 大 部 分 情况 下 只 读 的 表 


有 些 表 的 数据 用 于 编制 类 目 或 者 分 列 清单 〈 如 工作 岗位 、 竞 拍 、 不 
动产 等 ) ， 这 种 应 用 场景 是 典型 的 读 多 写 少 的 业务 。 如 果 不 介意 
MVyYISAM 的 骨 溃 恢复 问题 ， 选 用 MyISAM 引 擎 是 合适 的 。 不 过 不 要 低估 
骨 溃 恢复 问题 的 重要 性 ， 有 些 存 储 引擎 不 会 保证 将 数据 安全 地 写 入 到 破 
盘 中 ， 而 许多 用 户 实 际 上 并 不 清楚 这 样 有 多 大 的 风险 (MyISAM 只 将 数 
据 写 到 内 存 中 ， 然 后 等 待 操作 系统 定期 将 数据 刷 出 到 磁盘 上 ) 。 

































































S a ee 
ad 个 位 得 推 大 的 方式 ， 是 在 性 能 测试 环境 模拟 真实 的 环境 ， 运 行 应 用 ， 然 后 拔 下 电 
源 模拟 朋 泪 测试 。 对 崩溃 恢复 的 第 一 手 测试 经 验 是 无 价 之 宝 ， 可 以 避免 真 的 碰 到 裔 溃 时 手足 无 

















不 要 轻易 相信 “MyISAM 比 InnoDB 快 ”之 类 的 经 验 之 谈 ， 这 个 结论 往 
往 不 是 绝对 的 。 在 很 多 我 们 已 知 的 场景 中 ，InnoDB 的 速度 都 可 以 让 
MyISAM 望 尘 英 及 ， 尤 其 是 使 用 到 聚 秘 索 引 ， 或 者 需要 访问 的 数据 都 可 
以 放 入 内 存 的 应 用 。 在 本 书后 续 章 节 ， 读 者 可 以 了 解 更 多 影响 存储 引擎 
性 能 的 因素 “如 数据 大 小 、LIO 请 求 量 、 主 键 还 是 二 级 索引 等 ) 以 及 这 
些 因 素 对 应 用 的 影响 。 











当 设 计 上 述 类 型 的 应 用 时 ， 建 议 采 用 InnoDB。MYyISAM 引 擎 在 一 开 
始 可 能 没有 任何 问题 ， 但 随 着 应 用 压力 的 上 升 ， 则 可 能 迅速 恶化 。 各 种 
锁 争 用 、 骨 省 后 的 数据 丢失 等 问题 都 会 随 之 而 来 。 





订单 处 理 





如 果 涉 及 订单 处 理 ， 那 么 文 持 事 务 就 是 必要 选项 。 半 完成 的 订单 是 
无 法 用 来 吸引 用 户 的 。 另 外 一 个 重要 的 考虑 点 是 存储 引擎 对 外 键 的 文 持 
情况 。InnoDB 和 十 订单 处 理 类 应 用 的 最 佳 选择 。 





电子 公告 牌 和 主题 讨论 论坛 





对 于 MySQL 用 户 ， 主 题 讨论 区 是 个 很 有 意思 的 话题 。 当 前 有 成 百 
上 二 的 基于 PHP 或 者 Perl 的 免费 系统 可 以 文 持 主题 讨论 。 其 中 大 部 分 的 
数据 库 操作 效率 都 不 高， 因为 它们 大 多 倾向 于 在 一 次 请 求 中 执行 尽 可 能 
多 的 查询 语句 。 另 外 还 有 部 分 系统 设计 为 不 采用 数据 库 ， 当 然 也 就 无 法 
利用 到 数据 库 提 供 的 一 些 方便 的 特性 。 主 题 讨 论 区 一 般 都 有 更 新 计数 











器 ， 并 且 会 为 各 个 主题 计算 访问 统计 信息 。 多 数 应 用 只 设计 了 几 张 表 来 
保存 所 有 的 数据 ， 所 以 核心 表 的 读 写 压力 可 能 非常 大 。 为 保证 这 些 核心 
表 的 数据 一 致 性 ， 锁 成 为 资源 争 用 的 主要 因素 。 





尽管 有 这 些 设计 缺陷 ， 但 大 多 数 应 用 在 中 低 负载 时 可 以 工作 得 很 
好 。 如 果 Web 站 点 的 规模 迅速 扩展 ， 流 量 随 之 猛 增 ， 则 数据 库 访 问 可 能 
变 得 非常 慢 。 此 时 一 个 典型 的 解决 方案 是 更 改 为 文 持 更 高 读 写 的 存储 引 
擎 ， 但 有 时 用 户 会 发 现 这 么 做 反而 导致 系统 变 得 更 慢 了 。 用 户 可 能 没有 
意识 到 这 是 由 于 某 些 特殊 查询 的 缘故 ， 典 型 的 如 : 








mysql> SELECT COUNT (*) FROM table; 





问题 就 在 于 ， 不 是 所 有 的 存储 引擎 运行 上 述 查 询 都 非常 快 ， 对 于 
MyISAM 人 确实 会 很 快 ， 但 其 他 的 可 能 都 不 行 。 每 种 存储 引擎 都 能 找 出 类 
似 的 对 自己 有 利 的 例子 。 下 一 半 将 帮助 用 户 分 析 这 些 状况 ， 演 示 如 何 友 
现 和 解决 存在 的 这 类 问题 。 





CD-ROM 应 用 





如 果 要 发 布 一 个 基于 CD-ROM 或 者 DVD-ROM 并 且 使 用 MySQL 数 据 
文件 的 应 用 ， 可 以 考虑 使 用 MyISAM 表 或 者 MyISAM 压 缩 表 ， 这 样 表 之 
间 可 以 隔离 并 且 可 以 在 不 同 介 质 上 相互 拷贝 。MyYISAM 压 缩 表 比 未 压缩 
的 表 要 节约 很 多 空间 ， 但 压缩 表 是 只 读 的 。 在 某 些 应 用 中 这 可 能 是 个 大 
问题 。 但 如 果 数 据 放 到 只 读 介质 的 场景 下 ， 压 缩 表 的 只 读 特 性 就 不 是 问 
题 ， 就 没有 理由 不 采用 压缩 表 了 。 








大 数据 量 


什么 样 的 数据 量 算 大 ? 我 们 创建 或 者 管理 的 很 多 InnoDB 数 据 库 的 
数据 量 在 3 一 5TB 之 间 ， 或 者 更 大 ， 这 是 单 台 机 器 上 的 量 ， 不 是 一 个 分 
Fr (shard) 的 量 。 这 些 系 统 运 行 得 还 不 错 ， 要 做 到 这 一 点 需要 合理 地 选 
择 便 件 ， 做 好 物理 设计 ， 并 为 服务 器 的 IO 瓶颈 做 好 规划 。 在 这 样 的 数 
据 量 下 ， 如 果 采 用 MyISAM， 衣 种 后 的 恢复 就 是 一 个 置 梦 。 





如 果 数 据 量 继续 增长 到 10TB 以 上 的 级 别 ， 可 能 就 需要 建立 数据 仓 
库 。Infobright 是 MySQL 数 据 仓库 最 成 功 的 解雇 方案。 也 有 一 些 大 数据 
库 不 适合 Infobright， 却 可 能 适合 TokuDB。 


1.5.6 ”转换 表 的 引擎 


有 很 多 种 方法 可 以 将 表 的 存储 引擎 转换 成 妨 外 一 种 引擎 。 每 种 方法 
都 有 其 优点 和 缺点 。 在 接 下 来 的 章节 中 ， 我 们 将 讲述 其 中 的 三 种 方法 。 





ALTER TABLE 


将 表 从 一 个 引擎 修改 为 另 一 个 引擎 最 简单 的 办 法 是 使 用 ALTER 
TABLE 语 句 。 下 面 的 语句 将 mytable 的 引擎 修改 为 InnoDB: 


mysql> ALTER TABLE mytable ENGINE=InnoDB; 


上 述 语法 可 以 适用 任何 存储 引擎 。 但 有 一 个 问题 : 需要 执行 很 长 时 
间 。MySQL 会 按 行 将 数据 从 原 表 复 制 到 一 张 新 的 表 中 ， 在 复制 期 间 可 
能 会 消耗 系统 所 有 的 MO 能 力 ， 同 时 原 表 上 会 加 上 读 锁 。 所 以 ， 在 繁忙 
的 表 上 执行 此 操作 要 特别 小 心 。 一 个 蔡 代 方案 是 采用 接 下 来 将 讨论 的 导 
出 与 导入 的 方法 ， 手 工 进行 表 的 复制 。 





如 果 转 换 表 的 存储 引擎， 将 会 失去 和 原 引 警 相 关 的 所 有 特性 。 例 
如 ， 如 果 将 一 张 ImhnoDB 表 转换 为 MyISAM， 然 后 再 转换 回 InnoDB， 原 
InnoDB 表 上 上 所 有 的 外 键 将 丢失 。 


导出 与 导入 


为 了 更 好 地 控制 转换 的 过 程 ， 可 以 使 用 mysqldump 工 具 将 数据 导出 
到 文件 ， 然 后 修改 文件 中 CREATE TABLE 语 句 的 存储 引 敬 选项， 注意 同时 
修改 表 名 ， 因 为 同一 个 数据 库 中 不 能 存在 相同 的 表 名 ， 即 使 它们 使 用 的 
是 不 同 的 存储 引擎 。 同 时 要 注意 mysqldump 默 认 会 自动 在 CREATE TABLE 
语句 前 加 上 DROP _ TABLE 语句， 不 注意 这 一 点 可 能 会 导致 数据 丢失 。 








创建 与 查询 (CREATE 和 SELECT) 


第 三 种 转换 的 技术 综合 了 第 一 种 方法 的 高 效 和 第 二 种 方法 的 安全 。 
不 需要 导出 整个 表 的 数据 ， 而 是 先 创建 一 个 新 的 存储 引擎 的 表 ， 然 后 利 
用 1NSERT…SELECT 语 法 来 导数 据 ; 

mysql> CREATE TABLE innodb_table LIKE myisam_table; 


mysql> ALTER TABLE innodb_table ENGINE=InnoDB; 


mysql> INSERT INTO innodb_table SELECT * FROM myisam_table; 





数据 量 不 大 的 话 ， 这 样 做 工作 得 很 好 。 如 果 数 据 量 很 大 ， 则 可 以 考 
虑 做 分 批 处 理 ， 针 对 每 一 段 数据 执行 事务 提交 操作 ， 以 避免 大 事务 产生 
过 多 的 undo。 假 设 有 主键 字段 1d， 重 复 运 行 以 下 语句 (最 小 值 x- 和 最 大 
值 y 进 行 相应 的 答 换 ) 将 数据 导入 到 新 表 : 








mysql> START TRANSACTION; 
mysql> INSERT INTO innodb_table SELECT * FROM myisam_table 
-> WHERE id BETWEEN x AND y; 


mysql> COMMIT; 





这 样 操 作 完 成 以 后 ， 新 表 是 原 表 的 一 个 全 量 复制 ， 原 表 还 在 ， 如 果 
需要 可 以 删除 原 表 。 如 果 有 必要 ， 可 以 在 执行 的 过 程 中 对 原 表 加 锁 ， 以 
确保 新 表 和 原 表 的 数据 一 致 。 


Percona ”Toolkit 提 供 了 一 个 pt-online-schema-change 的 工具 (基于 
Facebook 的 在 线 schema 变 更 技术 ) ， 可 以 比较 简单 、 方 便 地 执行 上 述 过 
程 ， 避 免 手 工 操作 可 能 导致 的 失误 和 烦琐 。 


1.6 ”MySQL 时 间 线 (Timeline) 


的 。 
的 。 


在 选择 MySQL 版 本 的 时 候 ， 了 解 一 下 版 本 的 变迁 历史 是 有 帮助 
对 于 怀旧 者 也 可 以 享受 一 下 过 去 的 好 日 子 里 是 怎么 使 用 MySQL 


版 本 3.23 (2001) 


一 般 认 为 这 个 版 本 的 发 布 是 MySQL 真 正 * 诞 生 ” 的 时 刻 ， 其 开始 
获得 广泛 使 用 。 在 这 个 版 本 ，MySQL 依 然 只 是 一 个 在 平面 文件 
(Flat File) 上 实现 了 SQL 查询 的 系统 。 但 一 个 重要 的 改进 是 引入 
MyISAM 人 代替 了 老 旧 而 且 有 诸多 限制 的 ISAM 引 擎 。InnoDB 引 擎 也 
已经 可 以 使 用 ， 但 没有 包含 在 默认 的 二 进 制 发 行 版 中 ， 因 为 它 太 新 
了 。 所 以 如 果 要 使 用 InnoDB， 必 须 手 工 编译 。 版 本 3.23 还 引入 了 全 
文 索引 和 复制 。 复 制 是 MySQL 成 为 互联 网 应 用 的 数据 库 系 统 的 关 
键 特性 (killer feature) 。 








版 本 4.0 (2003) 


支持 新 的 语法 ， 比 如 UNION 和 多 表 DELETE 语 法 。 重 写 了 复制 ， 
在 备 库 使 用 了 两 个 线程 来 实现 复制 ， 避 免 了 之 前 一 个 线程 做 所 有 复 
制 工 作 的 模式 下 任务 切换 导致 的 问题 。InnoDB 成 为 标准 配备 ， 包 
括 了 全 部 的 特性 : 行 级 锁 、 外 键 等 。 版 本 4.0 中 还 引入 了 碍 询 缓存 
( 自 那 以 后 这 部 分 改动 不 大 ) ， 同 时 还 支持 通过 SSL 进 行 连接 。 


版 本 4. 1 (2005) 


引入 了 更 多 新 的 语法 ， 比 如 子 查询 和 INSERT ON DUPLICATE 
KEY UPDATE。 开 始 支 持 UTF-8 字 符 集 。 支 持 新 的 二 进 制 协 议和 
prepared 语 句 。 


版 本 5.0 (2006) 


这 个 版 本 出 现 了 一 些 “ 企 业 级 * 特 性， 视图、 触发 占 、 和 存储 过 程 
和 存储 函数 。 老 的 ISAM 引 擎 的 代码 被 彻 谨 移 除 ， 同 时 引入 了 新 的 


Federated 等 引擎 。 
版 本 5. 1 (2008) 


这 是 Sun 收 购 MySQL AB 以 后 发 布 的 首 个 版 本 ， 研 发 时 间 长 达 
五 年 。 版 本 5.1 引 入 了 分 区 、 基 于 行 的 复制 ， 以 及 plugin API (包括 
可 插 拔 存储 引擎 的 API) 。 移 除了 BerkeyDB 引 擎 ， 这 是 MySQL 最 早 
的 事务 存储 引擎。 其 他 如 Federated 引 擎 也 将 被 放弃 。 同 时 Oracle 收 
WGA InnoDB Oy 久 发布 了 InnoDB plugin. 


版 本 5.5 (2010) 


这 是 Oracle 收 购 Sun 以 后 发 布 的 首 个 版 本 。 版 本 5.5 的 主要 改善 
集中 在 性 能 、 扩 展 性 、 复 制 、 分 区 、 对 微软 Windows 系 统 的 文 持 ， 
以 及 一 些 其 他 方面 。InnoDB 成 为 默认 的 存储 引 苟 。 更 多 的 一 些 踪 
留 特性 和 不 建议 使 用 的 特性 被 移 除 。 增 加 了 PERFORMANCE_SCHEMA 
库 ， 包 含 了 一 些 可 测量 的 性 能 指标 的 增强 。 增 加 了 复制 、 认 证 和 和 审 
计 API。 半 同步 复制 (semisynchronous replication) 插件 进入 实用 阶 
段 。Oracle 还 在 2011 年 发 布 了 商用 的 认证 插件 和 线程 池 (thread 
pooling) 。InnoDB 在 架构 方面 也 做 了 较 大 的 改进 ， 比 如 多 个 子 绥 





冲 池 Cbuffer pool) 。 


版 本 5.6 (还 未 发 布 ) 





版 本 5.6 将 包含 一 些 重 大 更 新 。 比 如 多 年 来 首次 对 查询 优化 器 
进行 大 规模 的 改进 ， 更 多 的 插件 API《〈 比 如 全 文 索引 ) ， 复 制 的 改 
进 ， 以 及 PERFORMANCE_SCHEMA 库 增加 了 更 多 的 性 能 指标 。InnoDB 
团队 也 做 了 大 量 的 改进 工作 ， 这 些 改进 在 已 经 发 布 的 里 程 碑 版 本 和 
实验 室 版 本 中 都 已 经 包括 。MySQL 5.5 主 要 着 重 在 基础 部 分 的 改进 
和 加 强 ， 引 入 了 部 分 新 特性 。 而 MySQL 5.6 则 在 MySQL 5.5 的 基础 
上 提升 服务 器 的 开发 和 性 能 。 





版 本 6.0 (已 经 取消 ) 





版 本 6.0 的 概念 有 些 模糊 。 最 早 在 版 本 5.1 还 在 开发 的 时 候 就 宣 
布 要 开发 版 本 6.0。 传 说 中 宣布 要 开发 的 6.0 拥 有 大 量 的 新 特性 ， 包 
括 在 线 备 份 、 服 务 器 层面 对 所 有 存储 引擎 的 外 键 文 持 ， 以 及 子 查 询 
的 改进 和 线程 池 。 后 来 该 版 本 号 被 取消 ，Sun 将 其 改 为 版 本 5.4 继 续 
开发 ， 最 后 发 布 时 变 成 版 本 5.5。 版 本 6.0 中 很 多 特性 的 代码 陆续 出 
现在 版 本 5.5 和 5.6 中 。 











简单 总 结 一 下 MySQL 的 发 展 史 : 早期 的 MySQL 是 一 种 破坏 性 创新 
外， 有 诸多 限制 ， 并 且 很 多 功能 只 能 说 是 二 流 的 。 但 是 它 的 特性 支持 和 
较 低 的 使 用 成 本 ， 使 得 其 成 为 快速 增长 的 互联 网 时 代 的 杀手 级 应 用 。 在 
5.x 版 本 的 早期 ,，MySQL 引 入 了 视图 和 存储 过 程 等 特性 ， 期 望 成 为 “企业 
级 ”数据 库 ， 但 并 不 算 成 功 ， 成 长 并 非 一 帆 风 顺 。 从 事后 分 析 来 看 ， 
MySQL ”5.0 充 满 了 bug， 直 到 5.0.50 以 后 的 版 本 才 算 稳定 。 这 种 情况 在 
MySQL 5.1 也 依然 没有 太 多 改善 。 版 本 5.0 和 5.1 的 发 布 都 延期 了 许多 时 


日 ， 而 且 Sun 和 Oracle 的 两 次 收购 也 使 得 社区 人 士 有 所 担心 。 但 我 们 认 
为 事情 还 在 按部就班 地 发 展 ，MySQL 5.5 可 以 说 是 MySQL 历 史上 质量 最 
高 的 版 本 。Oracle 收 购 以 后 帮助 MySQL 更 好 地 往 企 业 级 应 用 的 方向 发 
展 ，MySQL 5.6 也 承诺 在 功能 和 性 能 方面 将 有 显著 提升 。 








提 到 性 能 ， 我 们 可 以 比较 一 下 在 不 同时 代 MySQL 的 性 能 测试 的 数 
据 。 在 目前 的 生产 环境 中 4.0 及 更 老 的 版 本 已 经 很 少见 了 ， 所 以 这 里 不 
打算 测试 4.1 之 前 的 版 本 。 另 外 ， 如 此 多 的 版 本 如 果 要 做 完全 等 同 的 测 
试 是 比较 困难 的 ， 有 具体 原因 将 在 后 面 的 章节 讨论 。 我 们 答 试 设计 了 多 个 
测试 方案 来 尽量 保证 在 不 同 版 本 中 的 基准 一 致 ， 并 为 此 做 了 很 多 努力 。 
表 1-2 显 示 了 在 服务 器 层面 不 同 并 发 下 的 每 秒 事务 数 的 测试 结 采 。 

















表 1-2: 多 个 不 同 MySQL 版 本 的 只 读 测 试 


线程 数 MySQL MySQL MySQL  MySQL5.1with MySQL MySQL 


4.1 5.0 al InnoDB plugin 55 5163 
1 686 640 596 594 531 526 
2 1307 1721, 1140 1139 1077 1019 
4 2275 2168 2032 2043 1938 1831 
8 3879 3746 3606 3681 3523 3320 
16 4374 4527 4393 6131 5881 5573 
32 4591 4864 4698 7762 7549 7139 
64 4688 5078 4910 7536 7269 6994 


注 a: 在 测试 的 时 候 ， 版 本 5. 6 还 没有 GA (正式 发 布 ) 。 


很 容易 将 表 1-2 的 数据 以 图 的 方式 展示 出 来 ， 如 图 1-2 所 示 。 
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图 1-2: MySQL 不 同 版 本 的 只 读 基 准 测 试 


在 解释 结果 之 前 ， 需 要 先 介绍 一 下 测 斌 环境。 测试 的 机 器 是 Cisco 
UCS C250， 两 颗 6 核 CPU， 每 个 核 文 持 两 个 线程 ， 内 存 为 384GB， 测 试 
的 数据 集 是 2.5GB， 所 以 MySQL 的 buffer pool 设 置 为 4GB。 采 用 
SysBench 的 read-only 只 读 测 试 进行 压 测 ， 并 采用 InnoDB 和 存储 引擎 ， 所 有 
的 数据 都 可 以 放 入 内 存 ， 因 此 是 CPU 密集 型 (CPU-bound) 的 测试 。 
次 测试 持续 60 分 钟 ， 每 10 秒 获取 一 次 吞吐 量 的 结果 ， 前 面 900 秒 用 于 预 
热 数据 ， 以 避免 预 热 时 的 IO 影响 测试 结果 。 


现在 来 看 看 结果 ， 有 两 个 很 明显 的 趋势 。 第 一 个 趋势 ， 采 用 了 
InnoDB ”plugin 的 版 本 ， 在 高 并 发 的 时 候 性 能 明显 更 好 ， 可 以 说 InnoDB 
plugin 的 扩展 性 更 好 。 这 是 可 以 预期 的 结果 ， 旧 的 版 本 在 高 并 发 时 确实 
存在 问题 。 第 二 个 趋势 ， 新 的 版 本 在 单线 程 的 时 候 性 能 比 旧 版 本 更 差 。 
一 开始 可 能 无 法 理解 为 什么 会 这 样 ， 仔 细 想 想 就 能 明白 ， 这 是 一 个 非常 
简单 的 只 读 测 试 。 新 版 本 的 SQL 语 法 更 复杂 ， 和 针对 复杂 查询 增加 了 很 多 
特性 和 改进 ， 这 对 于 简单 查询 可 能 帝 来 了 更 多 的 开销 。 旧 版 本 的 代码 简 
单 ， 对 于 简单 的 查询 反而 会 更 有 利 。 














原 计划 做 一 个 更 复杂 的 不 同 并 及 条 件 下 的 读 写 混合 场景 的 测试 《类 
似 TPC-C，〉， 但 要 在 不 同 版 本 间 做 到 可 比较 基本 是 不 可 能 的 。 一 般 来 
说 ， 新 版 本 在 复杂 场景 时 性 能 有 更 多 的 优化 ， 尤 其 是 高 并 及 和 大 数据 集 
的 情况 下 。 

















那么 该 如 何 选 择 版 本 呢 ? 这 更 多 地 取 雇 于 业务 需求 而 不 是 技术 需 
求 。 理 想 情 况 下 当然 是 版 本 越 新 越 好 ， 当 然 也 可 以 选择 等 到 第 一 个 pug 
修复 版 本 以 后 再 采用 新 的 大 版 本 。 如 果 应 用 还 没有 上 线 ， 也 可 以 采用 即 
将 发 布 的 新 版 本 ， 以 尽 可 能 地 延迟 应 用 上 线 后 的 升级 操作 。 
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1.7 MySQL 的 开发 模式 


MySQL 的 开发 过 程 和 发 布 模型 在 不 同 的 阶段 有 很 大 的 变化 ， 但 目 
己 经 基本 稳定 下 来 。 在 Oracle 定 期 发 布 的 新 里 程 碑 开 发 版 本 中 ， 会 包 
A na 
， 请 不 要 在 生产 环境 使 用 此 版 本 ， 虽 然 Oracle 宣 称 每 个 里 程 碑 版 本 的 
都 是 可 靠 的 ， 并 随时 可 以 正式 发 布 〈 到 目前 为 止 也 没有 任何 理由 去 
en IERED 。Oracle 也 会 定期 发 布 实验 室 预 览 版 ， 主 要 包含 一 些 特 
定 的 需要 评估 的 特性 ， 这 些 特性 并 不 保证 会 在 下 一 个 正式 版 本 中 包括 进 
去 。 最 终 ，Oracle 会 将 稳定 的 特性 打包 发 布 一 个 新 的 GA 版 本 。 
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MySQL 依 然 遵循 GPL 开源 协议 ， 全 部 的 源 代 码 〈 除 了 一 些 商 业 版 本 
的 插件 ) 都 会 开放 给 社区 。Oracle 似 乎 也 理解 ， ee 
不 同 的 版 本 并 非 明智 之 举 。MySQL AB 曾 经 尝试 过 不 同 版 本 的 策略 ， 
果 导 致 付费 用 户 变 成 了 “ 睁 眼 频 ”， 无 法 从 社区 的 测试 和 反馈 中 获得 好 
处 。 不 同 版 本 的 策略 并 不 受 企业 用 户 的 欢迎 ， 所 以 后 来 被 Sun 废 除了 。 





现在 Oracle 为 付费 用 户 单 独 提 供 了 一 些 服 务 器 插件 ， 而 MySQL 本 身 
enue 尽管 对 于 私有 的 服务 器 插件 的 发 布 有 一 些 抱怨 ， 但 
这 只 是 少数 的 声音 ， 并 且慢 慢 地 在 平息 。 大 多 数 MySQL 用 户 对 此 并 不 
性 总/ 市 需求 的 用 户 也 能 够 接受 商业 授权 的 付费 插件 。 








无 论 如 何 ， 不 开源 的 扩展 也 只 是 扩展 而 已 ， 并 不 会 将 MySQL 变 成 
受 限 制 的 非 开 源 模式 。 没 有 这 些 扩 展 ，MySQL 也 是 功能 完整 的 数据 
库 。 坦 白地 说 ， 我 们 也 很 欣赏 Oracle 将 更 多 的 特性 做 成 插件 的 开发 模 
式 。 如 果 将 特性 直接 包含 在 服务 器 中 而 不 是 API 的 方式 ， 那 就 更 加 没有 


选择 了 : 用 户 只 能 接受 这 种 实现 ， 而 失去 了 选择 更 适合 业务 的 实现 的 机 
会 。 例 如 ， 如 果 Oracle 将 InnoDB 的 全 文 索引 功能 以 API 的 方式 实现 ， 那 
么 就 可 能 以 同样 的 API 实 现 Sphinx 或 者 Lucene 的 插件 ， 这 可 能 对 一 些 用 
户 更 有 用 。 服 务 器 内 部 的 API 设 计 也 很 和 干净， 这 对 于 提升 代码 质量 非常 
有 帮助 ， 谁 不 想 要 这 个 呢 ? 
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MySQL 拥 有 分 层 的 架构 。 上 层 是 服务 器 层 的 服务 和 查询 执行 引 
擎 ， 下 层 则 是 存储 引擎 。 虽 然 有 很 多 不 同 作 用 的 插件 API， 但 存储 引擎 
API 还 是 最 重要 的 。 如 果 能 理解 MySQL 在 存储 引 敬 和 服务 层 之 间 处 理 碍 
询 时 如 何 通 过 API 来 回 交 互 ， 就 能 抓 住 MySQL 的 核心 基础 架构 的 精髓 。 








MySQL 最 初 基于 ISAM 构 建 〈 后 来 被 MyISAM 取 代 〉 ， 其 后 陆续 添 
加 了 更 多 的 存储 引擎 和 事务 支持 。MySQL 有 一 些 怪异 的 行为 是 由 于 历 
史 遗 留 导致 的 。 例 如 ， 在 执行 ALTER TABLE 时 ，MVySQL 提 交 事 务 的 方式 
是 由 于 存储 引擎 的 架构 直接 导致 的 ， 并 且 数 据 字 典 也 保存 在 .frm 文 件 中 
(这 并 不 是 说 InnoDB 会 导致 ALTER 变 成 非 事 务 型 的 。 对 于 InnoDB 来 
说 ， 所 有 的 操作 都 是 事务 ) 。 














当然 ， 存 储 引 擎 API 的 架构 也 有 一 些 缺 点 。 有 时 候选 择 多 并 非 好 
事 ， 而 在 MySQL ”5.0 和 MySQL ”5.1 中 有 太 多 的 存储 引 苟 可 以 选择 。 
InnoDB 对 于 95% 以 上 的 用 户 来 说 都 是 最 佳 选择 ， 所 以 其 他 的 存储 引擎 
可 能 只 是 让 事情 变 得 复杂 难 搞 ， 当 然 也 不 可 否认 某 些 情况 下 某 些 存储 引 
擎 能 更 好 地 满足 需求 。 














Oracle 一 开始 收购 了 InnoDB， 之 后 又 收购 了 MySQL， 在 同一 个 屋 构 
下 对 于 两 者 都 是 有 利 的 。InnoDB 和 MySQL 服 务 器 之 间 可 以 更 快 地 协同 
发 展 。MySQL 依 然 基于 GPL 协 议 开放 全 部 源 代码 ， 社 区 和 客户 都 可 以 获 
得 坚固 而 稳定 的 数据 库 ，MySQL 正 在 变 得 越 来 越 可 扩展 和 有 用 。 


(1) InnoDB 是 一 个 例外 ， 它 会 解析 外 键 定 义 ， 











因为 MySQL 服 务 器 本 身 没 有 实现 该 功能 。 


(2) MySQL 5.5 或 者 更 新 的 版 本 提供 了 一 个 API， 支 持 线程 池 (Thread-Pooling) 插件 ， 可 以 


使 用 池 中 少量 的 线程 来 服务 大 量 的 连接 。 


(3) 这 些 锁定 提示 经 第 被 小 用， 实际 上 应 当 尽 量 避 免 使 用 。 第 6 章 有 更 详细 的 讨论 。 
(4) MVCC 并 没有 正式 的 规范 ， 所 以 各 个 存储 引擎 和 数据 库 系统 的 实现 都 是 各 异 的 ， 没 有 人 














能 说 其 他 的 实现 方式 是 错误 的 。 


(5) mysqlperformanceblog.com。 一 一 译 者 注 





(6) Oracle 也 已 经 收购 了 BerkeyDB。 




















(7) “破坏 性 创新 ”一 词 出 自 Clayton M. Christensen 的 The Innovator's Dilemma (Harper) 。 


(8) GA (Generally Available) 的 意思 是 通常 可 用 的 版 本 ， 对 于 最 挑剔 的 老板 来 说 ， 这 种 版 
本 也 意味 着 达到 了 满足 生产 环境 中 使 用 的 质量 标准 。 






































第 2 童 MySQL 基准 测试 


基准 测试 (benchmark) 是 MySQL 新 手 和 专家 都 需要 掌握 的 一 项 基 
本 技能 。 简 单 地 说 ， 基 准 测试 是 针对 系统 设计 的 一 种 压力 测试 。 通 常 的 
目标 是 为 了 掌握 系统 的 行为 。 但 也 有 其 他 原因 ， 如 重 现 某 个 系统 状态 ， 
或 者 是 做 新 硬件 的 可 靠 性 测试 。 本 章 将 讨论 MySQL 和 基于 MySQL 的 应 
用 的 基准 测试 的 重要 性 、 策 略 和 工具 。 我 们 将 特别 讨论 一 下 sysbench， 
这 是 一 款 非 常 优秀 的 MySQL 基 准 测试 工具 。 














2.1 AltA ti AE EM 


为 什么 基准 测试 很 重要 ? 因为 基准 测试 是 唯一 方便 有 效 的 、 可 以 学 


习 系 统 在 给 定 的 工作 负载 下 会 发 生 什 么 的 方法 。 基 准 测试 可 以 观察 系统 





在 不 同 压力 下 的 行为 ， 评 佑 系统 的 容量 ， 和 擎 握 哪 些 是 重要 的 变化 ， 或 者 
观察 系统 如 何 处 理 不 同 的 数据 。 基 准 测 试 可 以 在 系统 实际 负载 之 外 创造 
一 些 虚 构 场 景 进行 测试 。 基 准 测 试 可 以 完成 以 下 工作 ， 或 者 更 多 : 








验证 基于 系统 的 一 些 假设 ， 确 认 这 些 假设 是 否 符合 实际 情况 。 

重 现 系 统 中 的 某 些 异常 行为 ， 以 解决 这 些 异 常 。 

测试 系统 当前 的 运行 情况 。 如 果 不 清楚 系统 当前 的 性 能 ， 束 无 法 确 
认 某 些 优化 的 效果 如 何 。 也 可 以 利用 历史 的 基准 测试 结果 来 分 析 诊 
断 一 些 无 法 预测 的 问题 。 

模拟 比 当前 系统 更 高 的 负载 ， 以 找 出 系统 随 着 压力 增加 而 可 能 过 到 
的 扩展 性 瓶颈 。 

规划 未 来 的 业务 增长 。 基 准 测试 可 以 评估 在 项 目 未 来 的 负载 下 ， 需 
要 什么 样 的 硬件 ， 需 要 多 大 容量 的 网 络 ， 以 及 其 他 相关 资源 。 这 有 
助 于 降低 系统 升级 和 重大 变更 的 风险 。 

测试 应 用 适应 可 变 环境 的 能 力 。 例 如 ， 通 过 基准 测试 ， 可 以 发 现 系 
统 在 随机 的 并 发 峰值 下 的 性 能 表现 ， 或 者 是 不 同 配置 的 服务 器 之 间 
的 性 能 表现 。 基 准 测 试 也 可 以 测试 系统 对 不 同 数 据 分 布 的 处 理 能 
TH 

测试 不 同 的 硬件 、 软 件 和 操作 系统 配置 。 比 如 RAID 5 还 是 RAID 10 
更 适合 当前 的 系统 ? 如果 系 统 从 ATA 人 硬盘 升级 到 SAN 存 储 ， 对 于 随 
机 写 性 能 有 什么 帮助 ? Linux 2.4 系 列 的 内 核 会 比 2.6 系 列 的 可 扩展 性 








更 好 吗 ? 升级 MySQL 的 版 本 能 改善 性 能 吗 ? 为 当前 的 数据 采用 不 
同 的 存储 引擎 会 有 什么 效果 ?所 有 这 类 问题 都 可 以 通过 专门 的 基准 
训 试 来 获得 答案 。 

证 明 新 采购 的 设备 是 否 配置 正确 。 笔 者 曾经 无 数 次 地 通过 基准 测试 
来 对 新 系统 进行 压 测 ， 发 现 了 很 多 错误 的 配置 ， 以 及 硬件 组 件 的 失 
效 等 问题 。 因 此 在 新 系统 正式 上 线 到 生产 环境 之 前 进行 基准 测试 是 
一 个 好 习惯 ， 永 远 不 要 相信 主机 提供 商 或 者 硬件 供应 商 的 所 谓 系 统 
己 经 安装 好 ， 并 且 能 运行 多 快 的 说 法 。 如 条 可能， 执行 实际 的 基准 
测试 永远 是 一 个 好 主意 。 


基准 测试 还 可 以 用 于 其 他 目的 ， 比 如 为 应 用 创建 单元 测试 套件 。 但 
本 章 我 们 只 关注 与 性 能 有 关 的 基准 测试 。 





基准 测试 的 一 个 主要 问题 在 于 其 不 是 真实 压力 的 测试 。 基 准 测 试 施 
加 给 系统 的 压力 相对 真实 压力 来 说 ， 通 常 比较 简单 。 真 实 压力 是 不 可 预 
期 而 且 变 化 多 端的 ， 有 时 候 情 况 会 过 于 复杂 而 难以 解释 。 所 以 使 用 真实 
压力 测试 ， 可 能 难以 从 结果 中 分 析出 确切 的 结论 。 














基准 测试 的 压力 和 真实 压力 在 哪些 方面 不 同 ? 有 很 多 因素 会 影响 基 
准 测试 ， 比 如 数据 量 、 数 据 和 碍 询 的 分 布 ， 但 最 重要 的 一 点 还 是 基准 测 
试 通 常 要求 尽 可 能 快 地 执行 完成 ， 所 以 经 币 给 系统 造成 过 大 的 压力 。 在 
很 多 案例 中 ， 我 们 都 会 调整 给 测试 工具 的 最 大 压力 ， 以 在 系统 可 以 容忍 
的 压力 阔 值 内 尽 可 能 快 地 执行 测试 ， 这 对 于 确定 系统 的 最 大 容量 非常 有 
帮助 。 然 而 大 部 分 压力 测试 工具 不 文 持 对 压力 进行 复杂 的 控制 。 务 必要 
记 住 ， 测试 工具 自身 的 局 限 也 会 影响 到 结果 的 有 效 性 。 



































使 用 基准 测试 进行 容量 规划 也 要 掌握 技巧 ， 不 能 只 根据 测试 结果 做 
简单 的 推断 。 例 如 ， 假 设想 知道 使 用 新 数据 库 服务 器 后 ， 系 统 能 够 文 撑 


多 大 的 业务 增长 。 首 先 对 原 系 统 进行 基准 测试 ， 然 后 对 新 系统 做 测试 ， 
结果 发 现 新 系统 可 以 支持 原 系统 40 倍 的 TPS〈 每 秒 事务 数 ) ， 这 时 候 就 
不 能 简 时 地 推断 说 新 系统 一 定 可 以 支持 40 倍 的 业务 增长 。 这 是 因为 在 业 
务 增长 的 同时 ， 系 统 的 流量 、 用 户 、 数 据 以 及 不 同 数据 之 间 的 交互 都 在 
增长 ， 它 们 不 可 能 都 有 40 倍 的 文 撑 能 力 ， 尤 其 是 相互 之 间 的 关系 。 而 且 
当 业 务 增 长 到 40 倍 时 ， 应 用 本 身 的 设计 也 可 能 已 经 随 之 改变 。 可 能 有 更 
多 的 新 特性 会 上 线 ， 其 中 茶 些 特性 可 能 对 数据 库 造 成 的 压力 远大 于 原 有 
功能 。 而 这 些 压力 、 数 据 、 关 系 和 特性 的 变化 都 很 难 模拟 ， 所 以 它们 对 
系统 的 影响 也 很 难 评估 。 











结论 就 是 ， 我 们 只 能 进行 大 概 的 测试 ， 来 确定 系统 大 致 的 余 量 有 多 
少 。 当 然 也 可 以 做 一 些 真实 压力 测试 (和 基准 测试 有 区 别 ) ， 但 在 构造 
数据 集 和 压力 的 时 候 要 特别 小 心 ， 而 且 这 样 就 不 再 是 基准 测试 了 。 基 准 
汕 试 要 尽量 简单 和 直接， 结果 之 间 容 易 相 互 比 较 ， 成 本 低 且 易于 执行 。 尽 
管 有 诸多 限制 ， 基 准 测试 还 是 非常 有 用 的 《只 要 摘 清 楚 测 试 的 原理 ， 并 
且 了 解 如 何 分 析 结 果 所 代表 的 意义 ) 。 





2.2 FETED Hey 


基准 测试 有 两 种 主要 的 策略 : 一 是 针对 整个 系统 的 整体 测试 ， 另 外 
是 单独 测试 MySQL 。 这 两 种 策略 也 被 称 为 集成 式 〈full-stack) 以 及 单 组 
件 式 〈single-component) 基准 测试 。 针 对 整个 系统 做 集成 式 测试 ， 而 不 
是 单独 测试 MySQL 的 原因 主要 有 以 下 几 点 : 


。 测试 整个 应 用 系统 ， 包 括 Web 服 务 器 、 应 用 代码 、 网 络 和 数据 库 是 
非常 有 用 的 ， 因 为 用 户 关 注 的 并 不 仅仅 是 MySQL 本 喘 的 性 能 ， 而 
征 应 用 整体 的 性 能 。 

e MyYySQL 并 非 总 是 应 用 的 瓶颈 ， 通 过 整体 的 测试 可 以 揭示 这 一 点 。 

。 只 有 对 应 用 做 整体 测试 ， 才 能 发 现 各 部 分 之 间 的 缓存 市 来 的 影响 。 

。 整体 应 用 的 集成 式 测 试 更 能 揭示 应 用 的 真实 表现 ， 而 单独 组 件 的 测 
试 很 难 做 到 这 一 后。 











另外 一 方面 ， 应 用 的 整体 基准 测试 很 难 建立 ， 甚 到 很 难 正 确 设置 。 
如 果 基 准 测试 的 设计 有 问题 ， 那 么 结果 就 无 法 反映 真实 的 情况 ， 从 而 基 
于 此 做 的 决策 也 就 可 能 是 错误 的 。 





不 过 ， 有 时 候 不 需要 了 解 整个 应 用 的 情况 ， 而 只 需要 关注 MySQL 
的 性 能 ， 至 少 在 项 目 初 期 可 以 这 样 做 。 基 于 以 下 情况 ， 可 以 选择 只 测试 
MySQL: 





。 需要 比较 不 同 的 schema 或 查询 的 性 能 。 
。 针对 应 用 中 人 杂 个 具体 问题 的 测试 。 
。 为 了 避免 漫长 的 基准 测试 ， 可 以 通过 一 个 短期 的 基准 测试 ， 做 快速 
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另外 ， 如 宋 能 够 在 真实 的 数据 集 上 执行 重复 的 查询 ， 那 么 针对 
MySQL 的 基准 测试 也 是 有 用 的 ， 但 是 数据 本 号 和 数据 集 的 大 小 都 应 该 
征 真 实 的 。 如 果 可 能 ， 可 以 采用 生产 环境 的 数据 快照 。 





不 幸 的 是 ， 设 置 一 个 基于 真实 数据 的 基准 测试 复杂 而 且 耗 时 。 如 果 
能 得 到 一 份 生产 数据 集 的 找 贝 ， 当 然 很 幸运 ， 但 这 通常 不 太 可 能 。 比 如 
要 测试 的 古 一 个 刚 开 发 的 新 应 用 ， 它 只 有 很 少 的 用 户 和 数据 。 如 果 想 测 
试 该 应 用 在 规模 扩张 到 很 大 以 后 的 性 能 表现 ， 就 只 能 通过 模拟 大 量 的 数 
据 和 压力 来 进行 。 


2.2.1 测试 何 种 指标 


在 开始 执行 甚至 是 在 设计 基准 测试 之 前 ， 需 要 先 明确 测试 的 目标 。 
测试 目标 决定 了 选择 什么 样 的 测试 工具 和 技术 ， 以 获得 精确 而 有 意义 的 
测试 结果 。 可 以 将 测试 目标 细 化 为 一 系列 的 问题 ， 比 如 ,， “这 种 CPU 是 
个 比 另 外 一 种 要 快 ? ”， 或 “新 索引 是 否 比 当前 索引 性 能 更 好 ? ” 








有 时 候 需 要 用 不 同 的 方法 测试 不 同 的 指标 。 比 如 ， 针 对 延迟 
(latency) 和 吞吐 量 (throughput) 就 需要 采用 不 同 的 测试 方法 。 





请 考虑 以 下 指标 ， 看 看 如 何 满足 测试 的 需求 。 


吞吐 


Hele 


否 吐 量 指 的 是 单位 时 间 内 的 事务 处 理 数 。 这 一 直 是 经 典 的 数据 
库 应 用 测试 指标 。 一 些 标准 的 基准 测试 被 广泛 地 引用 ， 如 TPC- 


C (8 Fhttp://www.tpc.org) ， 而 且 很 多 数据 库 广 商都 努力 争取 在 
这 些 测 试 中 取得 好 成 绩 。 这 类 基准 测试 主要 针对 在 线 事 务 处 理 
COLTP) 的 否 吐 量 ， 非 常 适用 于 多 用 户 的 交互 式 应 用 。 常 用 的 测 
试 单位 是 每 秒 事务 数 (TPS) ， 有 些 也 采用 每 分 钟 事务 数 
(TPM) 。 








响应 时 间或 者 延迟 


这 个 指标 用 于 测试 任务 所 需 的 整体 时 间 。 根 据 有 具体 的 应 用 ， 测 
试 的 时 间 单 位 可 能 是 微 秒 、 坚 秒 、 秘 或 者 分 钟 。 根 据 不 同 的 时 间 单 
位 可 以 计算 出 平均 响应 时 间 、 最 小 啊 应 时 间 、 最 大 啊 应 时 间 和 所 占 
百分比 。 最 大 响应 时 间 通 常 意义 不 大 ， 因 为 测试 时 间 越 长 ， 最 大 响 
应 时 间 也 可 能 越 大 。 而 且 其 结果 通常 不 可 重复 ， 每 次 测试 都 可 能 得 
到 不 同 的 最 大 响应 时 间 。 因 此 ， 通 常 可 以 使 用 百分比 啊 应 时 间 
(percentile response time) 来 蔡 代 最 大 啊 应 时 | 则 。 例 如 ， 如 果 95% 
的 啊 应 时 间 都 是 5 坚 秒 ， 则 表示 任务 在 95% 的 时 间 段 内 都 可 以 在 5 宣 
秒 之 内 完成 。 


























使 用 图 表 有 助 于 理解 测试 结果 。 可 以 将 测试 结果 绘制 成 折线 图 
(比如 平均 值 折 线 或 者 95% 百 分 比 折线 ) 或 者 散 点 图 ， 直 观 地 表现 
数据 结果 集 的 分 布 情况 。 通 过 这 些 图 可 以 及 现 长 时 间 测 试 的 趋势 。 
本 章 后 面 将 更 详细 地 讨论 这 一 点 。 


并 发 性 
并 友 性 是 一 个 非常 重要 又 经 常 被 误解 和 误 用 的 指标 。 例 如 ， 它 


经 常 被 表示 成 多 少 用 户 在 同一 时 间 浏 览 一 个 Web 站 点 ， 经 常 使 用 的 
指标 是 有 多 少 个 会 话 中 。 然 而 ，HTTP 协 议 是 无 状态 的 ， 大 多 数 用 
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的 并 发 性 。 而 且 ，Web 服 务 器 的 并 发 性 也 不 等 同 于 数据 库 的 并 发 
性 ， 而 仅仅 只 表示 会 话 存 储 机 制 可 以 处 理 多 少数 据 的 能 力 。Web 服 
务 器 的 并 及 性 更 准确 的 度量 指标 ， 应 该 是 在 任意 时 间 有 多 少 同时 故 
生 的 并 友 请 求 。 








在 应 用 的 不 同 环节 都 可 以 测量 相应 的 并 发 性 。Wweb 服 务 器 的 高 
并 发 ， 一 般 也 会 导致 数据 库 的 高 并 发 ， 但 服务 器 采用 的 语言 和 工具 
集 对 此 都 会 有 影响 。 注 意 不 要 将 创建 数据 库 连 接 和 并 发 性 搞 混淆 。 
一 个 设计 良好 的 应 用 ， 同 时 可 以 打开 成 百 上 千 个 MySQL 数 据 库 服 
务 器 连接 ， 但 可 能 同时 只 有 少数 连接 在 执行 查询 。 所 以 说 ， 一 个 
Web 站 点 “同时 有 50000 个 用 户 ? 访 问 ， 却 可 能 只 有 10 一 15 个 并 发 请 
求 到 MySQL 数 据 库 。 





换 句 话说 ， 并 友 性 基准 测试 需要 关注 的 是 正在 工作 中 的 并 发 操 
作 ， 或 者 是 同时 工作 中 的 线程 数 或 者 连接 数 。 当 并 发 性 增加 时 ， 和 需 
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能 就 无 法 处 理 峰 值 压 力 。 














并 发 性 的 测量 完全 不 同 于 响应 时 间 和 吞吐 量 。 它 不 像 是 一 个 结 
果 ， 而 更 像 是 设置 基准 测试 的 一 种 属性 。 并 发 性 测试 通常 不 是 为 了 
测试 应 用 能 达到 的 并 发 度 ， 而 是 为 了 测试 应 用 在 不 同 并 发 下 的 性 
能 。 当 然 ， 数 据 库 的 并 发 性 还 是 需要 测量 的 。 可 以 通过 sysbench 指 
定 32、64 或 者 128 个 线程 的 测试 ， 然 后 在 测试 期 间 记 录 MySQL 数 据 
库 的 Threads_running 状 态 值 。 在 第 11 章 将 讨论 这 个 指标 对 容量 规 
划 的 影响 。 














可 扩展 性 





在 系统 的 业务 压力 可 能 发 生变 化 的 情况 下 ， 测 试 可 扩展 性 就 非 
常 必要 了 。 第 11 章 将 更 进一步 讨论 可 扩展 性 的 话题 。 简 单 地 说 ， 可 
扩展 性 指 的 是 ， 给 系统 增加 一 倍 的 工作 ， 在 理想 情况 下 就 能 获得 两 
倍 的 结果 《〈 即 吞吐 量 增加 一 倍 ) 。 或 者 说 ， 给 系统 增加 一 倍 的 资源 
《比如 两 倍 的 CPU 数 ) ， 就 可 以 获得 两 僧 的 厨 吐 量 。 当 然 ， 同 时 性 
能 〈 啊 应 时 间 ) 也 必须 在 可 以 接受 的 范围 内 。 大 多 数 系统 是 无 法 做 
到 如 此 理想 的 线性 扩展 的 。 随 着 压力 的 变化 ， 否 吐 量 和 性 能 都 可 能 
RIA 














可 扩展 性 指标 对 于 容量 规范 非常 有 用 ， 它 可 以 提供 其 他 测试 无 
法 提供 的 信息 ， 来 帮助 发 现 应 用 的 竹 贷 。 比 如 ， 如 果 系 统 是 基于 单 
个 用 户 的 啊 应 时 间 测 斌 “这 是 一 个 很 糟糕 的 测试 案 略 ) 设计 的 ， 虽 
然 测 试 的 结果 很 好 ， 但 当 并 发 度 增 加 时 ， 系 统 的 性 能 有 可 能 变 得 非 
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可 以 发 现 这 个 问题 。 





一 些 任务 ， 比 如 从 细 粒 度数 据 创 建 汇 总 表 的 批量 工作 ， 需 要 的 
是 周期 性 的 快速 啊 应 时 间 。 当 然 也 可 以 测试 这 些 任务 纯粹 的 啊 应 时 
间 ， 但 要 注意 考虑 这 些 任务 之 间 的 相互 影响 。 批 量 工作 可 能 导致 相 
互 之 间 有 影响 的 查询 性 能 变 差 ， 反 之 亦 然 。 














归根 结 底 ， 应 该 测试 那些 对 用 户 来 说 最 重要 的 指标 。 因 此 应 该 尽 可 
能 地 去 收集 一 些 需 求 ， 比 如 ， 什 么 样 的 啊 应 时 间 是 可 以 接受 的 ， 期 符 多 
少 的 并 发 性 ， 等 等 。 然 后 基于 这 些 需 求 来 设计 基准 测试 ， 避 免 目 光 短 浅 
地 只 关注 部 分 指标 ， 而 忽略 其 他 指标 。 











2.3 ”基准 测试 方法 


在 了 解 基本 概念 之 后 ， 现 在 可 以 来 具体 讨论 一 下 如 何 设计 和 执行 基 


准 测 试 。 但 在 讨论 如 何 设 计 好 的 基准 测试 之 前 ， 先 来 看 一 下 如 何 避 免 一 


HoR 


见 的 错误 ， 这 些 错误 可 能 导致 测试 结果 无 用 或 者 不 精确 : 





使 用 真实 数据 的 子 集 而 不 是 全 集 。 例 如 应 用 需要 处 理 几 百 GB 的 数 
ta, (EMMA AGB: 或 者 只 使 用 当前 数据 进行 测试 ， 却 希望 
模拟 未 来 业务 大 幅度 增长 后 的 情况 。 

使 用 错误 的 数据 分 布 。 例 如 使 用 均匀 分 布 的 数据 测试 ， 而 系统 的 真 
实数 据 有 很 多 热点 区 域 〈 随 机 生成 的 测试 数据 通常 无 法 模拟 真实 的 
数据 分 布 ) 。 

使 用 不 真实 的 分 布 参 数 ， 例 如 假定 所 有 用 户 的 个 人 信息 (profile) 
都 会 被 平均 地 读 取 只。 

在 多 用 户 场 景 中 ， 只 做 单 用 户 的 测试 。 

在 单 服 务 器 上 测试 分 布 式 应 用 。 

与 真实 用 户 行为 不 匹配 。 例 如 Web 页 面 中 的 “思考 时 间 ”。 真 实用 户 
在 请 求 到 一 个 页 面 后 会 阅读 一 段 时间 ， 而 不 是 不 停顿 地 一 个 接 一 个 
点 击 相关 链接 。 

反复 执行 同一 个 查询 。 真 实 的 查询 是 不 尽 相 同 的 ， 这 可 能 会 导致 组 
存 命中 率 降 低 。 而 反复 执行 同一 个 查询 在 某 种 程度 上 ， 会 全 部 或 者 
部 分 缓存 结果 。 

没有 检查 错误 。 如 果 测 试 的 结果 无 法 得 到 合理 的 解释 ， 比 如 一 个 本 
应 该 很 慢 的 查询 突然 变 快 了 ， 束 应 该 检查 是 否 有 错误 产生 。 盏 则 可 
能 只 是 测试 了 MySQL 检 测 语法 错误 的 速度 了 。 基 准 测 试 完成 后 ， 












































- 定 要 检查 一 下 错误 日 志 ， 这 应 当 是 基本 的 要 求 。 

。 名 上 略 了 系统 预 热 (warm up) 的 过 程 。 例 如 系统 重 局 后 马上 进行 测 
试 。 有 时候 需要 了 解 系统 重 局 后 需要 多 长 时 间 才 能 达到 正常 的 性 能 
容量 ， 要 特别 留意 预 热 的 时 长 。 反 过 来 说 ， 如 果 要 想 分 析 正 常 的 性 

再 要 注意 ， 符 基准 测试 在 重启 以 后 马上 局 动 ， 则 缓存 是 冷 的 、 

还 没有 数据 ， 这 时 即使 测试 的 压力 相同 ， 得 到 的 结果 也 和 缓存 已 经 

装 满 数据 时 是 不 同 的 。 

使 用 默认 的 服务 器 配置 。 第 3 半 将 详细 地 讨论 服务 器 的 优化 配置 。 

测试 时 间 太 短 。 基 准 测试 需要 持续 一 定 的 时 间 。 后 面 会 继续 讨论 这 


个 话题 。 
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只 有 避免 了 上 述 错误 ， 才 能 走 上 改进 测试 质量 的 漫漫 长 路 。 


如 果 其 他 条 件 相 同 ， 束 应 努力 使 测试 过 程 尽 可 能 地 接近 真实 应 用 的 
情况 。 当 然 ， 有 时 候 和 真实 情况 稍 有 些 出 入 问题 也 不 大 。 例 如 ， 实 际 应 
用 服务 器 和 数据 库 服 务 器 分 别 部 署 在 不 同 的 机 器 。 如 果 采 用 和 实际 部 嗜 
完全 相同 的 配置 当然 更 真实 ， 但 也 会 引入 更 多 的 变化 因素 ， 比 如 加 入 了 
网 络 的 负载 和 速度 等 。 而 在 单一 节点 上 运行 测试 相对 要 容易 ， 在 休 些 情 
况 下 结果 也 可 以 接受 ， 那 么 就 可 以 在 单一 市 点 上 进行 测试 。 当 然 ， 这 样 
的 选择 需要 根据 实际 情况 来 分 析 古 否 合 适 。 


2.3.1 ”设计 和 规划 基准 测试 


规划 基准 测试 的 第 一 步 是 提出 问题 并 明确 目标 。 然 后 决定 是 采用 标 
准 的 基准 测试 ， 还 是 设计 专用 的 测试 。 




















如 果 采 用 标准 的 基准 测试 ， 应 该 确认 选择 了 合适 的 测试 方案 。 例 


如 ， 不 要 使 用 TPC-H 测 试 电子 商务 系统 。 在 TPC 的 定义 中 ,“TPC-H 是 即 
席 查 询 和 决策 文 持 型 应 用 的 基准 测试 ”， 因 此 不 适合 用 来 测试 OLTP 系 
统 。 


设计 专用 的 基准 测试 是 很 复杂 的 ， 往 往 需 要 一 个 迭代 的 过 程 。 首 先 
需要 获得 生产 数据 集 的 快照 ， 并 且 该 快照 很 容易 还 原 ， 以 便 进行 后 续 的 
测试 。 





然后 ， 针 对 数据 运行 查询 。 可 以 建立 一 个 单元 测试 集 作 为 初步 的 测 
试 ， 并 运行 多 裔 。 但 是 这 和 真实 的 数据 库 环境 还 是 有 差别 的 。 更 好 的 办 
法 是 选择 一 个 有 代表 性 的 时 间 段 ， 比 如 高 峰 期 的 一 个 小 时 ， 或 者 一 整 
天 ， 记 录 生 产 系统 上 的 所 有 碍 询 。 如 果 时 间 段 选 得 比较 小 ， 则 可 以 选择 
多 个 时 间 段 。 这 样 有 助 于 者 盖 整 个 系统 的 活动 状态 ， 例 如 每 周报 表 的 但 
询 、 或 者 非 峰值 时 间 运 行 的 批 处 理 作 业 鸟 。 


可 以 在 不 同 级 别 记 录 碍 询 。 例 如 ， 如 果 是 集成 式 〈full-stack) 基准 
测试 ， 可 以 记录 Web 服 务 器 上 的 HTTP 请 求 ， 也 可 以 打开 MySQL 的 查询 
日 志 (Query Log) 。 倘 知 要 重演 这 些 碍 询 ， 就 要 确保 创建 多 线程 来 并 
行 执行 ， 而 不 是 单个 线程 线性 地 执行 。 对 日 志 中 的 每 个 连接 都 应 该 创建 
独立 的 线程 ， 而 不 是 将 所 有 的 查询 随机 地 分 配 到 一 些 线程 中 。 查 询 日 志 
中 记录 了 每 个 查询 是 在 哪个 连接 中 执行 的 。 











即使 不 需要 创建 专用 的 基准 测试 ， 详 细 地 写 下 测试 规划 也 是 必需 
的 。 测 试 可 能 要 多 次 反复 运行 ， 因 此 需要 精确 地 重 现 测试 过 程 。 而 且 也 
应 该 考虑 到 未 来 ， 执 行 下 一 轮 测试 时 可 能 已 经 不 是 同一 个 人 了 。 即 使 还 
是 同一 个 人 ， 也 有 可 能 不 会 确切 地 记得 初次 运行 时 的 情况 。 测 试 规 划 应 
该 记录 测试 数据 、 系 统 配置 的 步 又、 如 何 测量 和 分 析 结 果 ， 以 及 预 热 的 
方案 等 。 














应 该 建立 将 参数 和 结果 文档 化 的 规范 ， 每 一 轮 测试 都 必须 进行 详细 
记录 。 文 档 规 范 可 以 很 简单 ， 比 如 采用 电子 表格 (spreadsheet) 或 者 记 
事 本 形式 ， 也 可 以 是 复杂 的 自 定 义 的 数据 库 。 需 要 记 住 的 是 ， 经 常 要 写 
一 些 脚 本 来 分 析 测 试 结果 ， 因 此 如 果 能 够 不 用 打开 电子 表格 或 者 文本 文 
件 等 额外 操作 ， 当 然 是 更 好 的 。 


2.3.2 ”基准 测试 应 该 运行 多 长 时 间 


基准 测试 应 该 运行 足够 长 的 时 间 ， 这 一 点 很 重要 。 如 果 需 要 测试 系 
统 在 稳定 状态 时 的 性 能 ， 那 么 当然 需要 在 稳定 状态 下 测试 并 观察 。 而 如 
果 系 统 有 大 量 的 数据 和 内 存 ， 要 达到 稳定 状态 可 能 需要 非常 长 的 时 间 。 
大 部 分 系统 都 会 有 一 些 应 对 突 发 情况 的 余 量 ， 能 够 吸收 性 能 尖峰 ， 将 一 
些 工 作 延 迟到 高 峰 期 之 后 执行 。 但 当 对 机 器 加 压 足 够 长 时 间 之 后 ， 这 些 
余 量 会 被 消耗 尽 ， 系 统 的 短期 尖峰 也 就 无 法 维持 原来 的 高 性 能 。 














有 时 候 无 法 确认 测试 需要 运行 多 长 的 时 间 才 足够 。 如 果 是 这 样 ， 可 
以 让 汕 试 一 直 运 行 ， 持 续 观 察 直 到 确认 系统 已 经 稳定 。 下 面 是 一 个 在 已 
知 系统 上 执行 测试 的 例子 ， 图 2-1 显 示 了 系统 磁盘 读 和 写 否 吐 量 的 时 序 
图 。 











y 
Lem & 


Figh ai uite Ogu 
MivanciOrs M Redor 











图 2-1: 扩展 基准 测试 的 1/0 性 能 图 


系统 预 热 完 成 后 ， 读 IO 活动 在 三 四 个 小 时 后 曲线 趋 问 稳 定 ， 但 与 
IO 至 少 在 八 小 时 内 变化 还 是 很 大 ， 之 后 有 一 些 点 的 波动 较 大 ， 但 读 和 
写 总 体 来 说 基本 稳定 了 多。 一 个 简单 的 测试 规则 ， 就 是 等 系统 看 起 来 稳 
定 的 时 间 至 少 等 于 系统 预 热 的 时 间 。 本 例 中 的 测试 持续 了 72 个 小 时 才 结 
束 ， 以 确保 能 够 体现 系统 长 期 的 行为 。 





一 个 常见 的 错误 的 测试 方式 是 ， 只 执行 一 系列 短期 的 测试 ， 比 如 每 
次 60 秒 ， 并 在 此 测试 的 基础 上 去 总 结 系统 的 性 能 。 我 们 经 常 可 以 听 到 类 
似 这 样 的 话 :“ 我 尝试 对 新 版 本 做 了 测试 ， 但 还 不 如 旧版 本 快 "， 然 而 我 
们 分 析 实 际 的 测试 结果 后 发 现 ， 测 试 的 方式 根本 不 足以 得 出 这 样 的 结 
论 。 有 时 候 人 们 也 会 强调 说 不 可 能 有 时 间 去 测试 8 或 者 12 个 小 时 ， 以 验 
证 10 个 不 同 并 发 性 在 两 到 三 个 不 同 版 本 下 的 性 能 。 如 果 没 有 时 间 去 完成 
准确 完整 的 基准 测试 ， 那 么 已 经 花费 的 所 有 时 间 都 是 一 种 浪 绩 。 有 时 候 
要 相信 别人 的 测试 结果 ， 这 总 比 做 一 次 半 拉 子 的 测试 来 得 到 一 个 错误 的 
结论 要 好 。 














2.3.3 ”获取 系统 性 能 和 状态 


在 执行 基准 测试 时 ， 需 要 尽 可 能 多 地 收集 被 测试 系统 的 信息 。 最 好 
为 基准 测试 建立 一 个 目录 ， 并 且 每 执行 一 轮 测试 都 创建 单独 的 子 目录 ， 
将 测试 结果 、 配 置 文件 、 测 试 指标 、 脚 本 和 其 他 相关 说 明 都 保存 在 其 
中 。 即 使 有 些 结果 不 是 目前 需要 的 ， 也 应 该 先 保存 下 来 。 多 余 一 些 数据 
总 比 缺 乏 重 要 的 数据 要 好 ， 而 且 多 余 的 数据 以 后 也 许 会 用 得 着 。 需 要 记 
录 的 数据 包括 系统 状态 和 性 能 指标 ， 诸 如 CPU 使 用 率 、 磁 盘 IO、 网 络 
流量 统计 、SHOW GLOBAL STATUS 计数 器 等 。 


























下 面 是 一 个 收集 MySQL 测 试 数据 的 shell 脚 本 : 


#!/bin/sh 


INTERVAL=5 
PREFIX=$INTERVAL -sec-status 
RUNFILE=/home/benchmarks/running 
mysql -e 'SHOW GLOBAL VARIABLES' >> mysql-variables 
while test -e $RUNFILE; do 
file=$(date +%F_%I) 
sleep=$(date +%sS.%N | awk "{print $INTERVAL - (\$1 % $IN 
sleep $sleep 
ts="$(date +"TS %S.%N %F %T")" 
loadavg="$(uptime)" 
echo "$ts $loadavg" >> $PREFIX-${file}-status 
mysql -e 'SHOW GLOBAL STATUS' >> $PREFIX-${file}-status & 


echo "$ts $loadavg" >> $PREFIX-${file}-innodbstatus 


mysql -e 'SHOW ENGINE INNODB STATUS\G' >> $PREFIX-${file}- 
echo "$ts $loadavg" >> $PREFIX-${file}-processlist 
mysql -e 'SHOW FULL PROCESSLIST\G' >> $PREFIX-${file}-proc 
echo $ts 

done 


echo Exiting because $RUNFILE does not exist. 


这 个 shell 脚 本 很 简单 ， 但 提供 了 一 个 有 效 的 收集 状态 和 性 能 数据 的 








框架 。 看 起 来 好 像 作 用 不 大 ， 但 当 需 要 在 多 个 服务 器 上 执行 比较 复 淋 的 
测试 的 时 候 ， 要 回答 以 下 关于 系统 行为 的 问题 ， 没 有 这 种 脚本 的 话 束 会 





很 困难 了 。 下 面 是 这 个 脚本 的 一 些 要 反 : 





迭代 是 基于 固定 时 间 间 隅 的 ， 每 隔 5 秒 运 行 一 次 收集 的 动作 ， 注 意 
这 里 sleep 的 时 间 有 一 个 特殊 的 技巧 。 如 果 只 是 简单 地 在 每 次 循环 时 
插入 一 条 “sleep ”5 的 指令 ， 循 环 的 执行 间隔 时 间 一 般 都 会 稍 大 于 5 
秒 ， 那 么 这 个 脚本 就 没有 办 法 通过 其 他 脚本 和 图 形 简 单 地 捕获 时 间 
相关 的 准确 数据 。 即 使 有 时 候 循 环 能 够 恰好 在 5 秒 内 完成 ， 但 如 果 
某 些 系统 的 时 间 惟 是 15:32:18.218192， 另 外 一 个 则 是 
15:32:23.819437， 这 时 候 束 比较 讨 大 了。 当然 这 里 的 5 秒 也 可 以 改 
成 其 他 的 时 间 间 隔 ， 比 如 1、10、30 或 者 60 秒 。 不 过 还 是 推荐 使 用 5 
秒 或 者 10 秒 的 间隔 来 收集 数据 。 

每 个 文件 名 都 包含 了 该 轮 测试 开始 的 日 斯 和 小 时 。 如 果 测 试 要 持续 
好 几 天 ， 那 么 这 个 文件 可 能 会 非常 大 ， 有 必要 的 话 需 要 手工 将 文件 
移 到 其 他 地 方 ， 但 要 分 析 全 部 结果 的 时 候 要 注意 从 最 早 的 文件 开 
始 。 如 果 只 需要 分 析 某 个 时 间 点 的 数据 ， 则 可 以 根据 文件 名 中 的 日 
期 和 小 时 迅速 定位 ， 这 比 在 一 个 GB 以 上 的 大 文件 中 去 搜索 要 快捷 
得 多 。 




















每 次 抓 取 数 据 都 会 先 记 录 当 前 的 时 间 戳 ， 所 以 可 以 在 文件 中 搜索 某 
个 时 间 点 的 数据 。 也 可 以 写 一 些 awk 或 者 sed 脚 本 来 简化 操作 。 

这 个 脚本 不 会 处 理 或 者 过 滤 收 集 到 的 数据 。 先 收集 所 有 的 原始 数 
据 ， 然 后 再 基于 此 做 分 析 和 过 小 是 一 个 好 习惯 。 如 果 在 收集 的 时 候 
对 数据 做 了 预 处 理 ， 而 后 续 分 析 发 现 一 些 异 常 的 地 方 需要 用 到 更 多 
的 原始 数据 ， 这 时 候 就 要 “ 抓 瞎 ” 了 。 

如 采 需 要 在 测试 完成 后 脚本 自动 退出 ， 只 需要 删 

除 /home/benchmarks/running 文 件 即 可 。 








这 只 是 一 段 简单 的 代码 ， 或 许 不 能 满足 全 部 的 需求 ， 但 却 很 好 地 演 
示 了 该 如 何 捕获 测试 的 性 能 和 状态 数据 。 从 代码 可 以 看 出 ， 只 捕获 了 
MySQL 的 部 分 数据 ， 如 果 需 要 ， 则 很 容易 通过 修改 脚本 添加 新 的 数据 
捕获 。 例 如 ， 可 以 通过 ptdiskstats 工 具 包 捕获 procdiskstats 的 数据 为 后 
续 分 析 磁 盘 IO 使 用 。 


2.3.4 ”获得 准确 的 测试 结 


获得 准确 测试 结果 的 最 好 办 法 ， 是 回答 一 些 关 于 基准 测试 的 基本 问 
题 : 是否 选择 了 正确 的 基准 测试 ? 是 否 为 问题 收集 了 相关 的 数据 ?是 否 
采用 了 错误 的 测试 标准 ? 例如 ， 是 否 对 一 个 W/O 密集 型 (1/O-bound) 的 
应 用 ， 采 用 了 CPU 密集 型 (CPU-bound) 的 测试 标准 来 评估 性 能 ? 














接着 ， 确 认 测 试 结果 是 否 可 重复 。 每 次 重新 测试 之 前 要 确保 系统 的 
状态 是 一 致 的 。 如 宋 是 非常 重要 的 测试 ， 甚 至 有 必要 每 次 测试 都 重 局 系 
统 。 一 般 情 况 下 ， 需 要 测试 的 是 经 过 预 热 的 系统 ， 还 需要 确保 预 热 的 时 
间 足 够 长 (请 参考 前 面 天 于 基准 测试 需要 运行 多 长 时 间 的 内 容 ) 、 是 否 
可 重复 。 如 有 果 预 热 采 用 的 是 随机 查询 ， 那 么 测试 结果 可 能 就 是 不 可 重复 


的 。 





如 果 测 试 的 过 程 会 修改 数据 或 者 schema， 那 么 每 次 测试 前 ， 需 要 利 
用 快照 还 原 数 据 。 在 表 中 插入 1000 条 记录 和 插入 100 万 条 记录 ， 测 试 结 
果 肯 定 不 会 相同 。 数 据 的 酚 片 度 和 在 破 盘 上 的 分 布 ， 都 可 能 导致 测试 是 
不 可 重复 的 。 一 个 确保 物理 磁盘 数据 的 分 布 尽 可 能 一 致 的 办 法 是 ， 每 次 
都 进行 快速 格式 化 并 进行 磁盘 分 区 复制 。 











要 注意 很 多 因素 ， 包 括 外 部 的 压力 、 性 能 分 析 和 监控 系统 、 详 细 的 
志 记 录 、 周 期 性 作业 ， 以 及 其 他 一 些 因 素 ， 都 会 影响 到 测试 结果 。 一 
个 典型 的 案例 ， 就 是 测试 过 程 中 突然 有 cron 定 时 作业 启动， 或 者 正 处 于 
一 个 巡查 读 取 周期 (Patrol Read cycle) ， 抑 或 RAID 卡 启动 了 定时 的 一 
致 性 检查 每 。 要 确保 基准 测试 运行 过 程 中 所 需要 的 资源 是 专用 于 测试 
的 。 如 果 有 其 他 额外 的 操作 ， 则 会 消耗 网 络 带宽 ， 或 者 测试 基于 的 是 和 
其 他 服务 器 共享 的 SAN 存 储 ， 那 么 得 到 的 结果 很 可 能 是 不 准确 的 。 











每 次 测试 中 ， 修 改 的 参数 应 该 尽量 少 。 如 果 必 须要 一 次 修改 多 个 参 
数 ， 那 么 可 能 会 丢失 一 些 信息 。 有 些 参数 依赖 其 他 参数 ， 这 些 参数 可 能 
无 法 单独 修改 。 有 时 候 甚至 都 没有 意识 到 这 些 依赖 ， 这 给 测试 带 来 了 复 


ARTES), 








一 般 情况 下 ， 都 是 通过 迭代 逐步 地 修改 基准 测试 的 参数 ， 而 不 是 每 
次 运行 时 都 做 大 量 的 修改 。 举 个 例子 ， 如 果 要 通过 调整 参数 来 创造 一 个 
特定 行为 ， 可 以 通过 使 用 分 治 法 (divide-and-conquer， 每 次 运行 时 将 参 
数 对 分 减 半 ) 来 找到 正确 的 值 。 


很 多 基准 测试 都 是 用 来 做 预测 系统 迁移 后 的 性 能 的 ， 比 如 从 Oracle 
迁移 到 MySQL。 这 种 测试 通常 比较 嘛 烦 ， 因 为 MySQL 执 行 的 查询 类 型 








与 Oracle 完 全 不 同 。 如 果 想 知道 在 Oracle 运 行 得 很 好 的 应 用 迁移 到 
MySQL 以 后 性 能 如 何 ， 通 常 需要 重新 设计 MySQL 的 schema 和 查询 (在 
某 些 情况 下 ， 比 如 ， 建 立 一 个 跨 平 台 的 应 用 时 ， 可 能 想 知道 同一 条 查询 
是 如 何在 两 个 平台 运行 的 ， 不 过 这 种 情况 并 不 多 见 ) 。 





另外 ， 基 于 MySQL 的 默认 配置 的 测试 没有 什么 意义 ， 因 为 默认 配 
置 是 基于 消耗 很 少 内 存 的 极 小 应 用 的 。 有 时 候 可 以 看 到 一 些 MySQL 和 
其 他 商业 数据 库 产品 的 对 比 测试 ， 结 果 很 让 人 槛 座 ， 可 能 就 是 MySQL 
采用 了 默认 配置 的 缘故 。 让 人 无 语 的 是 ， 这 样 明显 有 误 的 测试 结果 还 容 
易 变 成 头条 新 闻 。 


固态 存储 (“SSD 或 者 PCI-E 卡 ) 给 基准 测试 市 来 了 很 大 的 挑战 ， 第 9 


章 将 进一步 讨论 。 


BUR, WOR WA EAR, A SED BO AEF o 
应 该 认真 研究 并 找到 产生 这 种 结果 的 原因 。 测 试 可 能 会 得 到 有 价值 的 结 
果 ， 或 者 一 个 严重 的 错误 ， 抑 或 基准 测试 的 设计 缺陷 。 如 果 对 测试 结果 
不 了 解 ， 束 不 要 轻易 公布 。 有 一 些 案例 表明 ， 异 常 的 测试 结果 往往 都 是 
由 于 很 小 的 错误 导致 的 ， 最 后 搞 得 测试 无 功 而 返 名 。 


y— /一 一 vÆ > yD OD 
2.3.5 ”运行 基准 测试 并 分 析 结 
一 且 准 备 就 络 ， 就 可 以 着 手 基 准 测 试 ， 收 集 和 分 析 数 据 了 。 
通常 来 说 ， 自 动 化 基准 测试 是 个 好 主意 。 这 样 做 可 以 获得 更 精确 的 


测试 结果 。 因 为 目 动 化 的 过 程 可 以 防 正 测试 人 员 偶尔 遗漏 茶 些 步 又， 或 
者 误 操作 。 力 外 也 有 助 于 归档 整个 测试 过 程 。 











自动 化 的 方式 有 很 多 ， 可 以 是 一 个 Makefile 文 件 或 者 一 组 脚本 。 脚 
本 语言 可 以 根据 需要 选择 : shell、PHP、Perl 等 都 可 以 。 要 尽 可 能 地 使 
TAME ABA SI, BARRA. RAWA PTW. Wee 
果 等 。 





“tp, 一旦 设 置 了 正确 的 自动 化 操作 ， 基准 测试 将 成 为 一 步 式 操作 。 如 果 只 是 针对 某 些 应 
































用 做 一 次 性 的 快速 验证 测试 ， 可 能 就 没 必 要 做 自动 化 。 但 只 要 未 来 可 能 会 引用 到 测试 结果 ， 建 


























议 都 尽量 地 自动 化 。 否 则 到 时 候 可 能 就 搞 不 清楚 是 如 何 获 得 这 个 结果 的 ， 也 不 记得 采用 了 什么 
参数 ， 这 样 就 很 难 再 通过 测试 重 现 结果 了 。 





























基准 测试 通常 需要 运行 多 次 。 具 体 需 要 运行 多 少 次 要 看 对 结果 的 记 
分 方式 ， 以 及 测试 的 重要 程度 。 要 提高 测试 的 准确 度 ， 就 需要 多 运行 几 
次 。 一 般 在 测试 的 实践 中 ， 可 以 取 最 好 的 结果 值 ， 或 者 所 有 结果 的 平均 
值 ， 抑 或 从 五 个 测试 结果 里 取 最 好 三 个 值 的 平均 值 。 可 以 根据 需要 更 进 
一 步 精 确 化 测试 结果 。 还 可 以 对 结果 使 用 统计 方法 ， 确 定 置信 区 间 
(confidence interval) 等 。 不 过 通常 来 说 ， 不 会 用 到 这 种 程度 的 确定 性 
结果 鸟 。 只 要 测试 的 结果 能 满足 目前 的 需求 ， 简 单 地 运行 几 轮 测试 ， 看 
看 结果 的 变化 就 可 以 了 。 如 果 结 果 变 化 很 大 ， 可 以 再 多 运行 几 次 ,或 者 
运行 更 长 的 时 间 ， 这 样 都 可 以 获得 更 确定 的 结果 。 




















获得 测试 结果 后 ， 还 需要 对 结果 进行 分 析 ， 也 就 是 说 ， 要 把 “ 数 
字 ” 变 成 “知识 ”"。 最 终 的 目的 是 回答 在 设计 测试 时 的 问题 。 理 想 情 况 
站， 可 以 获得 诸如 “升级 到 4 核 CPU 可 以 在 保持 啊 应 时 间 不 变 的 情况 下 获 
得 超过 50%% 的 吞吐 量 增长 ?或 者 “增加 索引 可 以 使 得 询 更 快 ?的 结论 。 如 
果 需 要 更 加 科学 化 ， 建 议 在 测试 前 读 读 null hypothesis 一 书 ， 但 大 部 分 情 
况 下 不 会 要 求 做 这 么 严格 的 基准 测试 。 








如 何 从 数据 中 抽象 出 有 意义 的 结果 ， 依 赖 于 如 何 收集 数据 。 通 常 需 





要 写 一 些 脚本 来 分 析 数 据 ， 这 不 仪 能 减轻 分 析 的 工作 量 ， 而 且 和 自动 化 
基准 测试 一 样 可 以 重复 运行 ， 并 易于 文档 化 。 下 面 是 一 个 非常 简单 的 
shell 肢 本， 演示 了 如 何 从 前 面 的 数据 采集 脚本 采集 到 的 数据 中 抽取 时 间 
维度 信息 。 脚 本 的 输入 参数 是 采集 到 的 数据 文件 的 名 字 。 





#!/bin/sh 


# This script converts SHOW GLOBAL STATUS into a tabulated fo 
# per sample in the input, with the metrics divided by the ti 
# between samples. 
awk ' 
BEGIN { 
printf "#ts date time load QPS"; 
fmt = " %.2f"; 
} 
/^TS/ { # The timestamp lines begin with TS. 
ts = substr($2, 1, index($2, ".") - 1); 
load = NF - 2; 
diff = ts - prev_ts; 
prev_ts = ts; 
printf "\n%s %s %s %s", ts, $3, $4, substr($load, 1, 1 
} 
/Queries/ { 
printf fmt, ($2-Queries)/diff; 
Queries=$2 
} 
' ng@" 





假设 该 脚本 名 为 analyze， 当 前 面 的 脚本 生成 状态 文件 以 后 ， 就 可 以 


[baron@ginger ~]$ ./analyze 


#ts date time load QPS 


运行 该 脚本 ， 可 能 会 得 到 如 下 的 结果 : 


5-sec-status-2011-03-20 


1300642150 2011-03-20 17:29:10 0.00 0.62 

1300642155 2011-03-20 17:29:15 0.00 1311.60 
1300642160 2011-03-20 17:29:20 0.00 1770.60 
1300642165 2011-03-20 17:29:25 0.00 1756.60 
1300642170 2011-03-20 17:29:30 0.00 1752.40 
1300642175 2011-03-20 17:29:35 0.00 1735.00 
1300642180 2011-03-20 17:29:40 0.00 1713.00 
1300642185 2011-03-20 17:29:45 0.00 1788.00 
1300642190 2011-03-20 17:29:50 0.00 1596.40 


第 一 行 是 列 的 名 字 ; 第 二 行 的 数据 应 该 忽略 ， 因 为 这 是 测试 实际 局 
动 前 的 数据 。 接 下 来 的 行 包含 Unix 时 间 惟 、 日 期 、 时 间 (注音 时 间 数 据 
是 每 5 秒 更 新 一 次 ， 前 面 脚本 说 明 时 曾 提 过 〉、 系 统 负载 、 数 据 库 的 
QPS 每 秒 但 询 次 数 ) 五 列 ， 这 应 该 是 用 于 分 析 系 统 性 能 的 最 少数 据 需 
求 了 。 接 下 来 将 演示 如 何 根据 这 些 数据 快速 地 绘 成 图 形 ， 并 分 析 基 准 测 
试 过 程 中 发 生 了 什么 。 


绘图 的 重要 性 


如 果 你 想 要 统治 世界 ， 就 必须 不 断 地 利用 “阴谋 "名 。 而 最 简单 有 效 
的 图 形 ， 就 是 将 性 能 指标 按照 时 间 顺 序 绘制 。 通 过 图 形 可 以 立刻 发 现 一 
些 问题 ， 而 这 些 问题 在 原始 数据 中 却 很 难 被 注意 到 。 或 许 你 会 坚持 看 测 


2.3.0 





试 工具 打印 出 来 的 平均 值 或 其 他 汇总 过 的 信息 ， 但 平均 值 有 时 候 是 没有 
用 的 ， 马 会 手 盖 抒 一 些 真实 情况 。 圣 运 的 是 ， 前 面 写 的 脚本 的 输出 都 可 
以 定制 作为 qnuplot 或 者 R 绘 图 的 数据 来 源 。 假 设 使 用 gnuplot， 假 设 输出 
的 数据 文件 名 是 QPS-per-5-seconds: 











gnuplot> plot "QPS-per-5-seconds" using 5 w lines title"QPS" 


该 gnuplot 命 令 将 文件 的 第 五 列 qps 数 据 绘 成 图 形 ， 图 的 标题 是 
QPS。 图 2-2 是 绘制 出 来 的 结果 图 。 




















图 2-2: 基准 测试 的 QPS 图 形 


下 面 我 们 讨论 一 个 可 以 更 加 体现 图 形 价 值 的 例子 。 假 设 MySQL 数 
据 正在 遭受 “疯狂 刷新 (furious flushing) ”的 问题 ， 在 刷新 落后 于 检查 
点 时 会 阻塞 所 有 的 活动 ， 从 而 导致 否 叶 量 严 重 下 跌 。95% 的 响应 时 间 和 
平均 响应 时 间 指 标 都 无 法 发 现 这 个 问题 ， 也 就 是 说 这 两 个 指标 掩盖 了 问 
题 。 但 图 形 会 显示 出 这 个 周期 性 的 问题 ， 请 参考 图 2-3。 

















图 2-3 显 示 的 是 每 分 钟 新 订单 的 交易 量 (NOTPM,， new-order 
transactions per minute) 。 从 曲线 可 以 看 到 明显 的 周期 性 下 降 ， 但 如 果 


从 平均 值 〈 点 状 虚线 ) 来 看 波动 很 小 。 一 开始 的 低谷 是 由 于 系统 的 缓存 
是 空 的 ， 而 后 面 其 他 的 下 跌 则 是 由 于 系统 刷新 脏 块 到 磁盘 导致 。 如 果 没 
有 图 形 ， 要 发 现 这 个 趋势 会 比较 困难 。 
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图 2-3: 一 个 30 分 钟 的 dbt2 测 试 的 结果 


这 种 性 能 尖 刺 在 压力 大 的 系统 比较 常见 ， 需 要 调查 原因 。 在 这 个 案 
例 中 ， 是 由 于 使 用 了 旧版 本 的 InnoDB 引 擎 ， 脏 块 的 刷新 算法 性 能 很 
差 。 但 这 个 结论 不 能 是 想当然 的 ， 需 要 认真 地 分 析 详 细 的 性 能 统计 。 在 
PEGE BSI, SHOW ENGINE INNODB STATUS 的 输出 是 什么 ? SHOW FULL 
PROCESSLIST 的 输出 是 什么 ? 应 该 可 以 发 现 InnoDB 在 持续 地 刷新 脏 块 ， 
并 且 阻 塞 了 很 多 状态 是 “waiting on query cache lock” 的 线程 ， 或 者 其 他 类 
似 的 现象 。 在 执行 基准 测试 的 时 候 要 尽 可 能 地 收集 更 多 的 细节 数据 ， 然 
后 将 数据 绘制 成 图 形 ， 这 样 可 以 帮助 快速 地 发 现 问 题 。 











2.4 ”基准 测试 工具 


没有 必要 开发 自己 的 基准 测试 系统 ， 除 非 现 有 的 工具 确实 无 法 满足 
需求 。 下 面 的 章节 会 介绍 一 些 可 用 的 工具 。 


2.4.1 集成 式 测 试 工 具 


回忆 一 下 前 文 提供 的 两 种 测试 类 型 : 集成 式 测 试 和 单 组 件 式 测试 。 
坚 不 奇 怪 ， 有 些 工具 是 针对 整个 应 用 进行 测试 ， 也 有 些 工 具 是 针对 
MySQL 或 者 其 他 组 件 单 独 进行 测试 的 。 集 成 式 测试 ， 通 常 是 获得 整个 
应 用 概况 的 最 佳 手段 。 已 有 的 集成 式 测 试 工具 如 下 所 示 。 














ab 


ab 是 一 个 Apache HTTP 服 务 器 基准 测试 工具 。 它 可 以 测试 
HTTP 服 务 占 每 秒 最 多 可 以 处 理 多 少 请 求 。 如 果 测 试 的 是 Web 应 用 
服务 ， 这 个 结果 可 以 转换 成 整个 应 用 每 秒 可 以 满足 多 少 请 求 。 这 是 
个 非常 简单 的 工具 ， 用 途 也 有 限 ， 只 能 针对 单个 URL 进 行 尽 可 能 快 
的 压力 测试 。 关 于 ab 的 更 多 信息 可 以 参 
考 http://httpd.apache.org/docs/2.0/programs/ab.html。 


http_load 


这 个 工具 概念 上 和 ab 类似， 也 被 设计 为 对 Web 服 务 器 进行 测 
试 ， 但 比 ab 要 更 加 灵活 。 可 以 通过 一 个 输入 文件 提供 多 个 


URL，http_load 在 这 些 URL 中 随机 选择 进行 测试 。 也 可 以 定 

制 http_load， 使 其 按照 时 间 比 率 进行 测试 ， 而 不 仅仅 是 测试 最 大 请 
求 处 理 能 力 。 更 多 信息 请 参考 http:/www.acme.com/software/http- 
load/。 


JMeter 


JMeter 是 一 个 Java 应 用 程序 ， 可 以 加 载 其 他 应 用 并 测试 其 性 
能 。 它 虽然 是 设计 用 来 测试 Web 应 用 的 ， 但 也 可 以 用 于 测试 其 他 诸 
如 FTP 服 务 器 ， 或 者 通过 JDBC 进 行 数据 库 查 询 测 试 。 


JMeter 比 qb 和 http_load 都 要 复杂 得 多 。 例 如 ， 它 可 以 通过 控制 
预 热 时 间 等 参数 ， 更 加 灵活 地 模拟 真实 用 户 的 访问 。JMeter 拥 有 绘 
图 接口 (市 有 内 置 的 图 形 化 处 理 的 功能 ) ， 还 可 以 对 测试 进行 记 
录 ， 然 后 离线 重演 测试 结果 。 更 多 信息 请 参 
考 http:/jakarta.apache.org/jmeter/。 


2.4.2 $H FRIA L 

有 一 些 有 用 的 工具 可 以 测试 MySQL 和 基于 MySQL 的 系统 的 性 能 。 
2.5 节 将 演示 如 何 利 用 这 些 工具 进行 测试 。 
mysqlslap 


mysqlslap (http://dev.mysql.com/doc/refman/5.1/en/mysqlslap.html 
可 以 模拟 服务 器 的 负载 ， 并 输出 计时 信息 。 它 包含 在 MySQL 5.1 的 
发 行 包 中 ， 应 该 在 MySQL 4.1 或 者 更 新 的 版 本 中 都 可 以 使 用 。 测 试 





时 可 以 执行 并 发 连接 数 ， 并 指定 SQL 语句 〈 可 以 在 命令 行 上 执行 ， 
也 可 以 把 SQL 语句 写 入 到 参数 文件 中 ) 。 如 果 没 有 指定 SQL 语 
句 ，mysqislap 会 自动 生成 查询 schema 的 SELECT 语句 。 


MySQL Benchmark Suite (sql-bench) 





FEMySQLIN AT P Heth SAKE ONE, FY 
以 用 于 在 不 同 数据 库 服务 器 上 进行 比较 测试 。 它 是 单线 程 的， 主要 
用 于 测试 服务 器 执行 查询 的 速度 。 结 果 会 显示 哪 种 类 型 的 操作 在 服 
务 器 上 执行 得 更 快 。 








这 个 测试 套件 的 主要 好 处 是 包含 了 大 量 预 定义 的 测试 ， 容 易 使 
用 ， 所 以 可 以 很 轻松 地 用 于 比较 不 同 存储 引擎 或 者 不 同 配 置 的 性 能 
测试 。 其 也 可 以 用 于 高 层次 测试 ， 比 较 两 个 服务 器 的 总 体 性 能 。 当 
然 也 可 以 只 执行 预定 义 测试 的 子 集 ( 例 如 只 测试 UPDATE 的 性 能 )。 
这 些 测试 大 部 分 是 CPU 密 集 型 的 ， 但 也 有 些 短 时 间 的 测试 需要 大 量 
的 磁盘 IO 操作 。 








这 个 套件 的 最 大 缺点 主要 有 : 它 是 单 用 户 模式 的 ， 测 试 的 数据 
集 很 小 且 用 户 无 法 使 用 指定 的 数据 ， 并 且 同 一 个 测试 多 次 运行 的 结 
果 可 能 会 相差 很 大 。 因 为 是 单线 程 且 串 行 执行 的 ， 所 以 无 法 测试 多 
CPU 的 能 力 ， 只 能 用 于 比较 单 CPU 服 务 器 的 性 能 差别 。 使 用 这 个 套 
件 测 试 数据 库 服务 器 还 需要 Perl 和 BDB 的 支持 ， 相 关 文 档 请 参 
Æ http://dev.mysql.com/doc/en/mysql-benchmarks.html/. 





Super Smack 


Super Smack Chttp://vegan.net/tony/supersmack/) 是 一 球 用 于 


MySQL 和 PostgreSQL 的 基准 测试 工具 ， 可 以 提供 压力 测试 和 负载 生 
成 。 这 是 一 个 复杂 而 强大 的 工具 ， 可 以 模拟 多 用 户 访 问 ， 可 以 加 载 
测试 数据 到 数据 库 ， 并 文 持 使 用 随机 数据 填充 测试 表 。 测 试 定 义 
在 “smack” 文 件 中 ，smack 文 件 使 用 一 种 简单 的 语法 定义 测试 的 客户 
端 、 表 、 碍 询 等 测试 要 系 。 


Database Test Suite 


Database Test Suite 是 由 开源 软件 开发 实验 室 COSDL, Open 
Source Development Labs) 设计 的 ， 发 布 在 SourceForge 网 站 
(http://sourceforge.net/projects/osdldbt/) 上 ， 这 是 一 款 类 似 某 些 工 

业 标 准 测试 的 测试 工具 集 ， 例 如 由 事务 处 理性 能 委员 会 ‘TPC， 
Transaction Processing Performance Council) 制定 的 各 种 标准 。 特 别 
值得 一 提 的 是 ， 其 中 的 dbt2 惑 是 一 天 免费 的 TPC-C ”OLTP 测 试 工具 
(未 认证 ) 。 之 前 本 书 作者 经 常 使 用 该 工具 ， 不 过 现在 已 经 使 用 上 自 
己 研发 的 专用 于 MySQL 的 测试 工具 丛 代 了 。 








Percona's TPCC-MySQL Tool 


我 们 开发 了 一 个 类 似 TPC-C 的 基准 测试 工具 集 ， 其 中 有 部 分 是 
专门 为 MySQL 测 试 开 发 的 。 在 评估 大 压力 下 MySQL 的 一 些 行 为 
时 ， 我 们 经 常会 利用 这 个 工具 进行 测试 〈 简 单 的 测试 ， 一 般 会 采 
Fasysbench##{t) 。 该 工具 的 源 代 码 可 以 
在 https:Viaunchpad.neyperconatools 下 载 ， 在 源码 库 中 有 一 个 简单 的 
文档 说 明 。 


sysbench 


sysbench Chttps://launchpad.net/sysbench) 是 一 款 多 线程 系统 压 
测 工具 。 它 可 以 根据 影响 数据 库 服 务 器 性 能 的 各 种 因素 来 评估 系统 
的 性 能 。 例 如 ， 可 以 用 来 测试 文件 OO、 操作 系统 调度 器 、 内 存 分 
配 和 传输 速度 、POSIX 线 程 ， 以 及 数据 库 服务 器 等 。sysbench 文 持 
Lua 脚 本 语言 Chttp:/www.lua.org) ，Lua 对 于 各 种 测试 场景 的 设置 
可 以 非常 灵活 。sysbench 是 我 们 非常 喜欢 的 一 种 全 能 测试 工具 ， 文 
持 MySQL、 操 作 系 统 和 硬件 的 硬件 测试 。 





MySQL 的 BENCHMARKO 函 数 


MySQL 有 一 个 内 置 的 BENCHMARK () 函数 ， 可 以 测试 某 些 特定 操作 的 
执行 速度 。 参 数 可 以 是 需要 执行 的 次 数 和 表达 式 。 表 达 式 可 以 是 任何 
的 标量 表达 式 ， 比 如 返回 值 是 标量 的 子 查 询 或 者 函数 。 该 函数 可 以 很 
方便 地 测试 某 些 特定 操作 的 性 能 ， 比 如 通过 测试 可 以 发 现 ，NWMD5 () & 
数 比 SHA1 () eh BR: 


mysql> SET @input := ‘hello world'; 
mysql> SELECT BENCHMARK(1000000, MD5(@input) ); 


| 
i i ae a $ 


1 row in set (3.50 sec) 


执行 后 的 返回 值 永 远 是 0， 但 可 以 通过 客户 端 返回 的 时 间 来 判断 
执行 的 时 间 。 在 这 个 例子 中 可 以 看 到 MD5 () 执行 比 SHA1 () 要 快 。 使 
用 BENCHMARK () 函数 来 测试 性 能 ， 需 要 清楚 地 知道 其 原理 ， 否 则 容易 


误 用 。 这 个 函数 只 是 简单 地 返回 服务 器 执行 表达 式 的 时 间 ， 而 不 会 涉 
及 分 析 和 优化 的 开销 。 而 且 表 达 式 必须 像 这 个 例子 一 样 包含 用 户 定义 
的 变量 ， 否 则 多 次 执行 同样 的 表达 式 会 因为 系统 缓存 命中 而 影响 结果 
(10) 


虽然 BENCHMARK () 陶 数 用 起 来 很 方便 ， 但 不 合适 用 来 做 真正 的 基 
准 测试 ， 因 为 很 难 理解 真正 要 测试 的 是 什么 ， 而 且 测 试 的 只 是 整个 执 
行 周期 中 的 一 部 分 环节 。 





2.5 基准 测试 案例 


本 闻 将 演示 一 些 利用 上 面 提 到 的 基准 测试 工具 进行 测试 的 真实 腔 
例 。 这 些 采 例 未 必 涵 盖 所 有 测试 工具 ， 但 应 该 可 以 帮助 读者 针对 上 自己 的 
测试 需要 来 做 出 判断 和 选择 ， 并 作为 入 门 的 开端 。 


2.5.1 http_load 


FAAARA ty A http_load. AFC BI E— 
个 urls.txt 文 件 ， 输 入 如 下 的 URL: 


http://www. 
http://www. 
http://www. 
http://www. 
http://www. 


mysqlperformanceblog. 
mysqlperformanceblog. 
mysqlperformanceblog. 
mysqlperformanceblog. 


mysqlperformanceblog. 


com/ 

com/page/2/ 
com/mysql-patches/ 
com/mysql-performance-present 


com/2006/09/06/slow-query-log 


http_ioad 最 简单 的 用 法 ， 就 是 循环 请 求 给 定 的 URL 列 表 。 测 试 程序 
将 以 最 快 的 速度 请 求 这 些 URL: 


$ http_load -parallel 1 -seconds 10 urls.txt 


19 fetches, 


1 max parallel, 837929 bytes, in 10.0003 seconds 


44101.5 mean bytes/connection 


1.89995 fetches/sec, 83790.7 bytes/sec 


msecs/connect: 41.6647 mean, 56. 


156 max, 38.21 min 


msecs/first-response: 320.207 mean, 508.958 max, 179.308 min 
HTTP response codes: 


code 200 - 19 


测试 的 结果 很 容易 理解 ， 只 是 简单 地 输出 了 请 求 的 统计 信息 。 下 面 
是 另外 一 个 稍微 复杂 的 测试 ， 还 是 尽 可 能 快 地 循环 请 求 给 定 的 URL 列 
表 ， 不 过 模拟 同时 有 五 个 并 发 用 户 在 进行 请 求 


$ http_load -parallel 5 -seconds 10 urls.txt 

94 fetches, 5 max parallel, 4.75565e+06 bytes, in 10.0005 sec 
50592 mean bytes/connection 

9.39953 fetches/sec, 475541 bytes/sec 

msecs/connect: 65.1983 mean, 169.991 max, 38.189 min 
msecs/first-response: 245.014 mean, 993.059 max, 99.646 min 
HTTP response codes: 


code 200 - 94 


另外 ， 除 了 测试 最 快 的 速度 ， 也 可 以 根据 预 佑 的 访问 请 求 率 《比如 
每 秒 5 次 ) 来 做 压力 模拟 测试 。 


$ http_load -rate 5 -seconds 10 urls.txt 

48 fetches, 4 max parallel, 2.50104e+06 bytes, in 10 seconds 
52105 mean bytes/connection 

4.8 fetches/sec, 250104 bytes/sec 

msecs/connect: 42.5931 mean, 60.462 max, 38.117 min 
msecs/first-response: 246.811 mean, 546.203 max, 108.363 min 
HTTP response codes: 


code 200 - 48 





最 后 ， 还 可 以 模拟 更 大 的 负载 ， 可 以 将 访问 请 求 率 提高 到 每 秒 20 次 
请 求 。 请 注意 ， 连 接 和 请 求 响应 时 间 都 会 随 着 负载 的 提高 而 增加 。 


$ http_load -rate 20 -seconds 10 urls.txt 

111 fetches, 89 max parallel, 5.91142e+06 bytes, in 10.0001 s 
53256.1 mean bytes/connection 

11.0998 fetches/sec, 591134 bytes/sec 

msecs/connect: 100.384 mean, 211.885 max, 38.214 min 
msecs/first-response: 2163.51 mean, 7862.77 max, 933.708 min 
HTTP response codes: 


code 200 -- 111 


2.5.2 ”MySQL 基准 测试 套件 


MySQL 基 准 测试 套件 (MySQL Benchmark Suite) 由 一 组 基于 Perl 
开发 的 基准 测试 工具 组 成 。 在 MySQL 安 装 目 录 下 的 sqgl-benchn 子 目录 中 包 
含 了 该 工具 。 比 如 在 Debian GNU/Linux 系 统 上 ， 默 认 的 路 径 
是 /usr/share/mysql/sql-bench，。 





在 用 这 个 工具 集 测 斌 前， 应 该 读 一 下 README 文 件 ， 了 解 使 用 方法 
和 命令 行 参数 说 明 。 如 果 要 运行 全 部 测试 ， 可 以 使 用 如 下 的 命令 : 


$ cd /usr/share/mysql/sql-bench/ 
sql-bench$ ./run-all-tests --server=mysql --user=root --log - 
Test finished. You can find the result in: 


output/RUN-mysql_ fast-Linux_2.4.18 686 _smp_i686 


运行 全 部 测试 需要 比较 长 的 时 间 ， 有 可 能 会 超过 一 个 小 时 ， 其 具体 
长 短 依赖 于 测试 的 硬件 环境 和 配置 。 如 果 指 定 了 --1og 命 令 行 ， 则 可 以 监 
控 到 测试 的 进度 。 测 试 的 结果 部 保 存在 output 子 目录 中 ， 每 项 测试 的 结 
果 文 件 中 都 会 包含 一 系列 的 操作 计时 信息 。 下 面 是 一 个 具体 的 例子 ， 为 
方便 印刷 ， 部 分 格式 做 了 修改 。 








sql-bench$ tail -5 output/select-mysql_fast-Linux_2.4.18 686_ 
Time for count_distinct_group_on_key (1000:6000): 

34 wallclock secs ( 0.20 usr 0.08 sys + 0.00 cusr 0.00 csys 
Time for count_distinct_group_on_key_parts (1000:100000): 

34 wallclock secs ( 0.57 usr 0.27 sys + 0.00 cusr 0.00 csys 
Time for count_distinct_group (1000:100000): 

34 wallclock secs ( 0.59 usr 0.20 sys + 0.00 cusr 0.00 csys 
Time for count_distinct_big (100:1000000): 

8 wallclock secs ( 4.22 usr 2.20 sys + 0.00 cusr 0.00 csys 
Total time: 


868 wallclock secs (33.24 usr 9.55 sys + 0.00 cusr 0.00 csy 


如 上 所 示 ，count distinct_group_on key (1000:6000) 测试 花费 
了 34 秒 (wallclock secs) ， 这 是 客户 端 运行 测试 花费 的 总 时 间 ;， 其 他 值 
(包括 usr，sys，cursr，csys) 则 占 了 测试 的 0.28 秒 的 开销 ， 这 是 运 
行 客户 端 测 试 代 人 码 所 花费 的 时 间 ， 而 不 是 等 待 MySQL 服 务 器 啊 应 的 时 
间 。 而 测试 者 真正 需要 关心 的 测试 结果 ， 是 除去 客户 端 控制 的 部 分 ， 即 
实际 运行 时 间 应 该 是 33.72 秒 。 














除了 运行 全 部 测试 集 外 ， 也 可 以 选择 单独 执行 其 中 的 部 分 测试 项 。 
例如 可 以 选择 只 执行 


insert 测 试 ， 这 会 比 运行 全 部 测试 集 所 得 到 的 汇总 信息 给 出 更 多 的 
详细 信息 : 


sql-bench$ ./test-insert 


Testing server 'MySQL 4.0.13 log' at 2003-05-18 11:02:39 


Testing the speed of inserting data into 1 table and do some 


The tests are done with a table that has 100000 rows. 


Generating random keys 
Creating tables 
Inserting 100000 rows in order 
Inserting 100000 rows in reverse order 
Inserting 100000 rows in random order 
Time for insert (300000): 
42 wallclock secs ( 7.91 usr 5.03 sys + 0.00 cusr 0.00 csys 
Testing insert of duplicates 
Time for insert_duplicates (100000): 


16 wallclock secs ( 2.28 usr 1.89 sys + 0.00 cusr 0.00 csys 


2.5.3 sysbench 


sysbench 可 以 执行 多 种 类 型 的 基准 测试 ， 它 不 仅 设 计 用 来 测试 数据 
库 的 性 能 ， 也 可 以 测试 运行 数据 库 的 服务 器 的 性 能 。 实 际 上 ，Peter 和 
Vadim 最 初 设计 这 个 工具 是 用 来 执行 MySQL 性 能 测试 的 (尽管 并 不 能 完 
成 所 有 的 MySQL 基 准 测试 ) 。 下 面 先 演示 一 些 非 MySQL 的 测试 场景 ， 


来 测试 各 个 子 系统 的 性 能 ， 这 些 测试 可 以 用 来 评 佑 系统 的 整体 性 能 瓶 
De 后面 再 演示 如 何 测 试 数据 库 的 性 能 。 








强烈 建议 大 家 都 能 就 悉 sysbench 测 试 ， 在 MySQL 用 户 的 工具 包 中 ， 
这 应 该 是 最 有 用 的 工具 之 一 。 尽 管 有 其 他 很 多 测试 工具 可 以 奉 代 
sysbench 的 某 些 功能 ， 但 那些 工具 有 时 候 并 不 可 靠 ， 获 得 的 结果 也 不 一 
定 和 MySQL 性 能 相关 。 例 如 ，LO 性 能 测试 可 以 用 iozone、bonnie++ 等 
一 系列 工具 ， 但 需要 注意 设计 场景 ， 以 便 可 以 模拟 InnoDB 的 磁盘 IO 模 
式 。 而 sysbenchn 的 IO 测试 则 和 InnoDB 的 IO 模式 非常 类 似 ， 所 以 fleio 选 
项 是 非常 好 用 的 。 








sysbench 失 CPU 基 准 测 试 


最 典型 的 子 系统 测试 就 是 CPU 基准 测试 。 该 测试 使 用 64 位 整数 ， 测 
试 计算 素数 直到 某 个 最 大 值 所 需要 的 时 间 。 下 面 的 例子 将 比较 两 台 不 同 
的 GNU/VLinux 服 务 器 上 的 测试 结果 。 第 一 台 机 器 的 CPU 配置 如 下 : 








[server1 ~]$ cat /proc/cpuinfo 


model name : AMD Opteron(tm) Processor 246 
stepping : 1 
cpu MHz : 1992.857 


cache size : 1024 KB 
在 这 人 台 服 务 器 上 运行 如 下 的 测试 : 


[server1 ~]$ sysbench --test=cpu --cpu-max-prime=20000 run 


sysbench v0.4.8: multithreaded system evaluation benchmark 


Test execution summary: total time: 12 


BBWS aA SA I)AYCPU: 


[server2 ~]$ cat /proc/cpuinfo 


model name : Intel(R) Xeon(R) CPU 5130 @ 2.00GHZ 
stepping : 6 
cpu MHz : 1995.005 


测试 结果 如 下 : 


[server1 ~]$ sysbench --test=cpu --cpu-max-prime=20000 run 


sysbench v0.4.8: multithreaded system evaluation benchmark 


Test execution summary: total time: 61.8596s 





测试 的 结果 简单 打印 出 了 计算 出 素数 的 时 间 ， 很 容易 进行 比较 。 在 
上 面 的 测试 中 ， 第 二 全 服务 器 的 测试 结果 显示 比 第 一 人 台 快 两 倍 。 


sysbench 的 文件 WO 基准 测试 


文件 IO (fileio) 基准 测试 可 以 测试 系统 在 不 同 VO 负 载 下 的 性 

。 这 对 于 比较 不 同 的 硬盘 驱动 器 、 不 同 的 RAID 卡 、 不 同 的 RAID 模 
~ 都 很 有 帮助 。 可 以 根据 测试 结果 来 调整 WO 子 系统 。 文 件 WO 基 准 测 
试 模拟 了 很 多 InnoDB 的 VO 特性 。 


测试 的 第 一 步 是 准备 〈prepare) 阶段 ， 生 成 测试 用 到 的 数据 文件 ， 
生成 的 数据 文件 至 少 要 比 内 存 大 。 如 果 文 件 中 的 数据 能 完全 放 入 内 存 
中 ， 则 操作 系统 缓存 大 部 分 的 数据 ， 寻 致 测试 结果 无 法 体现 IO 密集 型 
的 工作 负载 。 首 先 通 过 下 面 的 命令 创建 一 个 数据 集 : 


$ sysbench --test=fileio --file-total-size=150G prepare 





这 个 命令 会 在 当前 工作 目录 下 创建 测试 文件 ， 后 续 的 运行 《run) 
阶段 将 通过 读 写 这 些 文件 进行 测试 。 第 二 步 就 是 运行 (run) 阶段 ， 针 
对 不 同 的 VO 类 型 有 不 同 的 测试 选项 : 








seqwr 

顺序 写 入 。 
seqrewr 

顺序 重 写 。 
seqrd 

顺序 读 取 。 
rndrd 

随机 读 取 。 
rndwr 


随机 写 入 。 


rdnrw 
混合 随机 读 / 写 。 
下 面 的 命令 运行 文件 W/O 混合 随机 读 / 写 基准 测试 : 


$ sysbench --test=fileio --file-total-size=150G --file-test-m 


- -init - rng=on - -max- time=300- -max-requests=0 run 


结果 如 下 : 


sysbench v0.4.8: multithreaded system evaluation benchmark 


Running the test with following options: 
Number of threads: 1 


Initializing random number generator from timer. 


Extra file open flags: 0 

128 files, 1.1719Gb each 

150Gb total file size 

Block size 16Kb 

Number of random requests for random IO: 10000 

Read/Write ratio for combined random IO test: 1.50 
Periodic FSYNC enabled, calling fsync() each 100 requests. 
Calling fsync() at the end of test, Enabled. 

Using synchronous I/O mode 

Doing random r/w test 


Threads started! 


Time limit exceeded, exiting... 


Done. 


Operations performed: 40260 Read, 26840 Write, 85785 Other = 
Read 629.06Mb Written 419.38Mb Total transferred 1.0239Gb (3. 


223.67 Requests/sec executed 


Test execution summary: 
total time: 300.0004s 
total number of events: 67100 
total time taken by event execution: 254.4601 


per-request statistics: 


min: 0.0000s 
avg: 0.0038s 
max: 0.5628s 
approx. 95 percentile: 0.0099s 


Threads fairness: 


events (avg/stddev): 67100.0000/0.00 
execution time (avg/stddev): 254.4601/0.00 


输出 结果 中 包含 了 大 量 的 信息 。 和 IO 子 系统 密切 相关 的 包括 每 秒 
请 求 数 和 总 吞吐 量 。 在 上 述 例子 中 ， 每 秒 请 求 数 是 223.67 Requests/sec, 
否 吐 量 是 3.4948MB/sec。 男 外， 时间 信 息 也 非常 有 用 ， 尤 其 是 大 约 95% 
的 时 间 分 布 。 这 些 数 据 对 于 评估 磁盘 性 能 十 分 有 用 。 











测试 完成 后 ， 运 行 清除 (cleanup〉 操作 删除 第 一 步 生 成 的 测试 文 
件 : 


$ sysbench --test=fileio --file-total-size=150G cleanup 


sysbench 的 OLTP 基 准 测试 


OLTP 基 准 测 试 模 拟 了 一 1 E 下 面 





的 例子 使 用 的 是 一 张 超过 百 万 行 记录 的 表 ， 第 一 步 是 先生 成 这 张 表 : 


$ sysbench --test=oltp --oltp-table-size=1000000 --mysql-db=t 
--mysql-user=root prepare 


sysbench v0.4.8: multithreaded system evaluation benchmark 


No DB drivers specified, using mysql 
Creating table 'sbtest'... 


Creating 1000000 records in table 'sbtest'... 








生成 测试 数据 只 需要 上 面 这 条 简单 的 命令 即 可 。 接 下 来 可 以 运行 测 
这 个 例子 采用 了 8 个 并 发 线程 ， 只 读 模 式 ， 测 试 时 长 60 秒 : 


$ sysbench --test=oltp --oltp-table-size=1000000 --mysql-db=t 
--max-time=60 --oltp-read-only=on --max-requests=0 --num-thre 


sysbench v0.4.8: multithreaded system evaluation benchmark 


No DB drivers specified, using mysql 

WARNING: Preparing of "BEGIN" is unsupported, using emulation 
(last message repeated 7 times) 

Running the test with following options: 


Number of threads: 8 


Doing OLTP test. 

Running mixed OLTP test 

Doing read-only test 

Using Special distribution (12 iterations, 1 pct of values ar 
cases) 

Using "BEGIN" for starting transactions 

Using auto_inc on the id column 

Threads started! 

Time limit exceeded, exiting... 

(last message repeated 7 times) 


Done. 


OLTP test statistics: 


queries performed: 


read: 179606 

write: 0 

other: 25658 

total: 205264 
transactions: 12829 (213.07 per 
deadlocks: © (0.00 per sec.) 
read/write requests: 179606 (2982.92 p 
other operations: 25658 (426.13 per 


Test execution summary: 
total time: 60.2114s 


total number of events: 12829 


total time taken by event execution: 480.2086 


per-request statistics: 


min: 0. 0030s 
avg: 0.0374s 
max: 1.9106s 
approx. 95 percentile: 0.1163s 


Threads fairness: 
events (avg/stddev): 1603.6250/70.66 


execution time (avg/stddev): 60.0261/0.06 


如 上 所 示 ， 结 果 中 包含 了 相当 多 的 信息 。 其 中 最 有 价值 的 信息 如 


。 总 的 事务 数 。 

每 秒 事务 数 。 

时 间 统 计 信息 (最 小 、 平 均 、 最 大 响应 时 间 ， 以 及 95% 百 分 比 啊 应 
时 间 ) 。 

线程 公平 性 统计 信息 〈thread-fairness) ， 用 于 表示 模拟 负载 的 公平 
性 。 





这 个 例子 使 用 的 是 sysbench 的 第 4 版 ， 在 SourceForge.net 可 以 下 载 到 
这 个 版 本 的 编译 好 的 可 执行 文件 。 也 可 以 从 Launchpad 下 载 最 新 的 第 5 版 
的 源 代码 自行 编译 《这 是 一 件 简单 、 有 用 的 事情 ) ， 这 样 就 可 以 利用 很 
多 新 版 本 的 特性 ， 包 括 可 以 基于 多 个 表 而 不 是 单个 表 进 行 测试 ， 可 以 每 
隔 一 定 的 间隔 比如 10 秒 打印 出 吞吐 量 和 响应 的 结果 。 这 些 指 标 对 于 理解 
系统 的 行为 非常 重要 。 














sysbench 的 其 他 特性 


sysbench 还 有 一 些 其 他 的 基准 测试 ， 但 和 数据 库 性 能 没有 直接 关 
Ko 


memory) 4 (memory) 
测试 内 存 的 连续 读 写 性 能 。 
线程 (thread) 
测试 线程 调度 器 的 性 能 。 对 于 高 负载 情况 下 测试 线程 调度 器 的 
行为 非常 有 用 。 
互 斥 锁 (mutex) 


MREFA (mutex) 的 性 能 ， 方 式 是 模拟 所 有 线程 在 同一 时 
刻 并 发 运行 ， 并 都 短暂 请 求 互 斥 锁 〈 互 斥 锁 mutex 征 一 种 数据 纺 
构 ， 用 来 对 某 些 资源 进行 排他 性 访问 控制 ， 防 止 因 并 发 访问 导致 问 


题 ) 。 
顺序 写 (seqwr) 


测试 顺序 写 的 性 能 。 这 对 于 测试 系统 的 实际 性 能 瓶颈 很 重要 。 
可 以 用 来 测试 RAID 控 制 器 的 高 速 绥 存 的 性 能 状况 ， 如 果 测 试 结果 
异常 则 需要 引起 重视 。 例 如 ， 如 果 RAID 控 制 器 写 缓存 没有 电池 保 
护 ， 而 磁盘 的 压力 达到 了 3000 次 请 求 / 秒 ， 就 是 一 个 问题 ， 数 据 可 
能 是 不 安全 的 。 








另外 ， 除 了 指定 测试 模式 参数 〈--test) 外 ，sysbench 还 有 其 他 很 多 
参数 ， 比 如 --num-threads、--max-requests 和 --max-time 参 数 ， 更 多 信息 请 
查阅 相关 文档 。 


2.5.4 ”数据 库 测试 套件 中 的 dbt2 TPC- 
Cw aX 


数据 库 测 试 套件 (Database Test Suite) 中 的 dbt2 是 一 款 免 费 的 TPC- 
C 测 试 工具 。TPC-C 是 TPC 组 织 发 布 的 一 个 测试 规范 ， 用 于 模拟 测试 复 
杂 的 在 线 事务 处 理 系统 (OLTP〉。 它 的 测试 结果 包括 每 分 钟 事务 数 
(tpmC) ， 以 及 每 事务 的 成 本 (Price/tpmC) 。 这 种 测试 的 结果 非常 依 
赖 人 硬件 环境 ， 所 以 公开 发 布 的 TPC-C 测 试 结果 都 会 包含 具体 的 系统 硬件 
配置 信息 。 


























qh A TG C 测 试 ， 它 没有 得 到 TPC 组 织 的 认证 ， 它 的 结果 不 能 直接 跟 






































TPC- Cie 二 果 做 对 比 。 而 且 本 书 作者 开发 了 一 款 比 dbt2 更 好 的 测试 工具 ， 详 细 情 况 见 2.5.5 节 。 











下 面 看 一 个 设置 和 运行 dbt2 其 准 测试 的 例子 。 这 里 使 用 的 是 dbt2 
0.37 版 本 ， 这 个 版 本 能 够 支持 MySQL 的 最 新 版 本 (还 有 更 新 的 版 本 ， 但 
包含 了 一 些 MySQL 不 能 提供 完全 支持 的 修正 )。 下 面 是 测试 步 又 。 


1. 准备 测试 数据 。 
下 面 的 命令 会 在 指定 的 目录 创建 用 于 10 个 仓库 的 数据 。 每 个 仓 
库 使 用 大 约 700MB 磁 盘 空 间 ， 测 试 所 需要 的 总 的 磁盘 空间 和 仓 
库 的 数量 成 正比 。 因 此 ， 可 以 通过 -w 参 数 来 调整 仓库 的 个 数 以 
生成 合适 大 小 的 数据 集 。 


# src/datagen -w 10 -d /mnt/data/dbt2-w10 
warehouses = 10 

districts = 10 

customers = 3000 

items = 100000 

orders = 3000 

stock = 100000 


new_orders = 900 
Output directory of data files: /mnt/data/dbt2-w10 


Generating data files for 10 warehouse(s)... 
Generating item table data... 

Finished item table data... 

Generating warehouse table data... 

Finished warehouse table data... 


Generating stock table data... 


2. 加 载 数据 到 MySQL 数 据 库 。 
下 面 的 命令 创建 一 个 名 为 dbt2w10 的 数据 库 ， 并 且 将 上 一 步 生成 
的 测试 数据 加 载 到 数据 库 中 (-d 参 数 指定 数据 库 ，-f 参 数 指定 测 
试 数据 所 在 的 目录 ) o 


# scripts/mysql/mysql_load_db.sh -d dbt2w10 -f /mnt/data/dbt2 
-S /var/1ib/mysgl1/mysql.sock 








# run_mysql.sh -c 10 -w 10 -t 300 -n dbt2w10/ 


-u root -o /var/lib/mysql/mysql.sock-e 
SRC CCC CC CHK AC RRR KAR KKK KK 


* DBT2 test for MySQL started * 
* * 
* Results can be found in output/9 directory * 


HR RK RK RR RAK RK KK OK OK KK OK KK AK OR KK KK KK KKK KKK KKK EKA K KEK KEK 


Test consists of 4 stages: 


Start of client to create pool of databases connections 

Start of driver to emulate terminals and transactions generation 
Test 

Processing of results 


*eeetekee xe & 
PUNB 
w r S 


* tee He HH 哮 


SESSA AAA AE EGGS AAG KK RAK 


DATABASE NAME: dbt2w10 

DATABASE USER: root 

DATABASE SOCKET: /var/1ib/mysql/mysql. sock 
DATABASE CONNECTIONS: 10 

TERMINAL THREADS: 100 

SCALE FACTOR(WARHOUSES) : 10 

TERMINALS PER WAREHOUSE: 10 

DURATION OF TEST(in sec): 300 

SLEEPY in (msec) 300 

ZERO DELAYS MODE: 1 


Stage 1. Starting up client... 

Delay for each thread - 300 msec. Will sleep for 4 sec to start 10 database 
connections 

CLIENT PID = 12962 


Stage 2. Starting up driver... 

Delay for each thread - 300 msec. Will sleep for 34 sec to start 100 terminal 
threads 

All threads has spawned successfuly. 


Stage 3. Starting of the test. Duration of the test 300 sec 


Stage 4. Processing of results... 
Shutdown clients. Send TERM signal to 12962. 
Response Time (s) 
Transaction % Average : 90th % Total Rollbacks % 
Delivery 3.53 2.224% 3 0 
New Order 41.24 0.659: 1 2 
Order Status 3.86 0.684 : 1.228 1756 0 0.00 
Payment 39.23 0.644: 1 0 
Stock Level 3.59 0,652:2 4 0 


3396.95 new-order transactions per minute (NOTPM) 
5.5 minute duration 


0 total unknown errors 
31 second(s) ramping up 


最 重要 的 结果 是 输出 信息 中 末尾 处 的 一 行 : 


3396.95 new-order transactions per minute (NOTPM) 


这 里 显示 了 系统 每 分 钟 可 以 处 理 的 最 大 事务 数 ， 越 大 越 好 (new- 
order 并 非 一 种 事务 类 型 的 专用 术语 ， 它 只 是 表明 测试 是 模拟 用 户 在 假想 
的 电子 商务 网 站 下 的 新 订单 )。 





通过 修改 东 些 参数 可 以 定制 不 同 的 基准 测试 。 


到 数据 库 的 连接 数 。 修 改 该 参数 可 以 模拟 不 同 程度 的 并 发 性 ， 
以 测试 系统 的 可 扩展 性 。-e 


启用 零 延 迟 (zero-delay) 模式 ， 这 意味 着 在 不 同 查询 之 间 没 
有 时 间 延 迟 。 这 可 以 对 数据 库 施加 更 大 的 压力 ， 但 不 符合 真实 情 
况 。 因 为 真实 的 用 户 在 执行 一 个 新 查询 前 总 需要 一 个 “思考 时 间 
(think time) ”。 








基准 测试 的 持续 时 间 。 这 个 参数 应 该 精心 设置 ， 人 否则 可 能 导致 
测试 的 结果 是 无 意义 的 。 对 于 IO 密集 型 的 基准 测试 ， 太 短 的 持续 
时 间 会 导致 错误 的 结果 ， 因 为 系统 可 能 还 没有 足够 的 时 间 对 缓存 进 
行 预 热 。 而 对 于 CPU 密 集 型 的 基准 测试 ， 这 个 时 间 又 不 应 该 设置 得 
KK; 否则 生成 的 数据 量 过 大 ， 可 能 转变 成 MO 密 集 型 。 


这 种 基准 测试 的 结果 ， 可 以 比 单纯 的 性 能 测试 提供 更 多 的 信息 。 例 
如 ， 如 果 发 现 测试 有 很 多 的 回 滚 现象 ， 那 么 就 可 以 判定 很 可 能 什么 地 方 
出 现 错误 了 。 








2.5.5 Percona} TPCC-MySQLill ix 
T 








尽管 sysbench 的 测试 很 简单 ， 并 且 结 果 也 具有 可 比 性 ， 但 毕竟 无 法 
模拟 真实 的 业务 压力 。 相 比 而 言 ，TPC-C 测 试 则 能 模拟 真实 压力 。2.5.4 
市 谈 到 的 db 忆 是 TPC-C 的 一 个 很 好 的 实现 ， 但 也 还 有 一 些 不 足 之 处 。 为 
了 满足 很 多 大 型 基准 测试 的 需求 ， 本 书 的 作者 重新 开发 了 一 球 新 的 类 
TPC-C 测 试 工具 ， 代 码 放 在 Launchpad 上 ， 可 以 通过 如 下 地 址 获 
W: https://code.launchpad.net/~percona-dev/perconatools/tpcc-mysql， 其 
中 包含 了 一 个 README 文 件 说 明了 如 何 编译 。 该 工具 使 用 很 简单 ， 但 
测试 数据 中 的 仓库 数量 很 多 ， 可 能 需要 用 到 其 中 的 并 行 数据 加 载 工具 来 
加 快 准备 测试 数据 集 的 速度 ， 否 则 这 一 步 会 花费 很 长 时 间 。 











使 用 这 个 测试 工具 ， 需 要 创建 数据 库 和 表 绪 构 、 加 载 数据 、 执 行 测 
试 三 个 步骤 。 数 据 库 和 表 绪 构 通过 包含 在 源码 中 的 SQL 脚本 创建 。 加 载 
数据 通过 用 C 写 的 tpcc_load 工 具 完 成 ， 该 工具 需要 上 自行 编译 。 加 载 数 据 
需要 执行 一 段 时 间 ， 并 且 会 产生 大 量 的 输出 信息 (一 般 都 应 该 将 程序 输 
出 重 定向 到 文件 中 ， 这 里 尤其 应 该 如 此 ， 人 否则 可 能 丢失 滚动 的 历史 信 
S) 。 下 面 的 例子 显示 了 配置 过 程 ， 创 建 了 一 个 小 型 〈 五 个 仓库 ) 的 测 
试 数据 集 ， 数 据 库 名 为 tpcc5。 

















<b>$ ./tpcc_load localhost tpcc5 username p4ssword 5</b> 


火炎 火炎 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


*** ###easy### TPC-C Data Loader *** 


火炎 炎炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


<Parameters> 


[server]: localhost 
[port]: 3306 
[DBname]: tpcc5 
[user]: username 
[pass]: p4ssword 
[warehouse]: 5 
TPCC Data Load Started... 


Loading Item 


[output snipped for brevity] 


Loading Orders for D=10, W= 5 


Orders Done. 


, ,DATA LOADING COMPLETED SUCCESSFULLY. 


然后 ， 使 用 tpcc_start 工 具 开 始 执 行 基准 测试 。 其 同样 会 产生 很 多 输 
出 信息 ， 还 是 建议 重 定 同 到 文件 中 。 下 面 是 一 个 简单 的 示例 ， 使 用 五 个 
线程 操作 五 个 仓库 ，30 秒 预 热 时 间 ，30 秒 测试 时 间 : 





$ ./tpcc_start localhost tpcc5 username p4ssword 5 5 30 30 


类 类 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 炎炎 炎炎 火炎 火炎 类 


*** ###eaSy### TPC-C Load Generator *** 
eT TTT TTT TTT TTT TTT TCT TTT TTT TTT TTT LTT 
<Parameters> 
[server]: localhost 
[port]: 3306 
[DBname]: tpcc5 
[user]: username 
[pass]: p4ssword 
[warehouse]: 5 
[connection]: 5 
[rampup]: 30 (sec.) 


[measure]: 30 (sec. ) 


RAMP-UP TIME.(30 sec.) 


MEASURING START. 


10, 63(0):0.40, 63(0):0.42, 7(0):0.76, 6(@):2.60, 6(0):0.17 


20, 75(0):0.40, 74(0):0.62, 7(0):0.04, 9(0):2.38, 7(0):0.75 


30, 83(0):0.22, 84(0):0.37, 9(0):0.04, 7(0):1.97, 9(0):0.80 


STOPPING THREADS..... 


<RT Histogram> 


1.New-Order 


2.Payment 
3.0rder-Status 
4.Delivery 


5.Stock-Level 


<90th Percentile RT (MaxRT)> 


New-Order : 0.37 (1.10) 


Payment 0.47 (1.24) 
Order-Status 0.06 (0.96) 
Delivery 2.43 (2.72) 
Stock-Level 0.75 (0.79) 


<Raw Results> 
[0] sc:221 1t:0 rt:0 f1:0 
[1] sc:221 1t:0 rt:0 f1:0 
[2] sc:23 1t:0 rt:0 f1:0 
[3] sc:22 1t:0 rt:0 f1:0 
[4] sc:22 1t:0 rt:0 f1:0 


in 30 sec. 


<Raw Results2(sum ver. )> 
[0] sc:221 1t:0 rt:0 f1:0 
[1] sc:221 1t:0 rt:0 f1:0 
[2] sc:23 1t:0 rt:0 f1:0 
[3] sc:22 1t:0 rt:0 f1:0 
[4] sc:22 1t:0 rt:0 f1:0 


<Constraint Check> (all must be [OK]) 
[transaction percentage | 
Payment: 43.42% (>=43.0%) [OK] 
Order-Status: 4.52% (>= 4.0%) [OK] 
Delivery: 4.32% (>= 4.0%) [OK] 
Stock-Level: 4.32% (>= 4.0%) [OK] 
[response time (at least 90% passed) ] 
New-Order: 100.00% [OK] 
Payment: 100.00% [OK] 
Order-Status: 100.00% [OK] 
Delivery: 100.00% [OK] 
Stock-Level: 100.00% [OK] 


<TpmC> 
442.000 TpmC 


最 后 一 行 就 是 测试 的 结果 : 每 分 钟 执行 完 的 事务 数 。 如 果 紧 挨 
Abn TW RA aR, HAR ARTA REM, ALA 
可 以 检查 一 下 响应 时 间 的 直方 网， 或 者 通过 其 他 详细 输出 信息 寻找 线 
索 。 当 然 ， 最 好 是 能 使 用 本 章 前 面 提 到 的 一 些 脚本 ， 这 样 就 可 以 很 容易 
获得 测试 执行 期 间 的 详细 的 诊断 数据 和 性 能 数据 。 








2.6 ”总 结 
每 个 MySQL 的 使 用 者 都 应 该 了 解 一 些 基准 测试 的 知识 。 基 准 测 试 

不 仅仅 是 用 来 解决 业务 问题 的 一 种 实践 行动 ， 也 是 一 种 很 好 的 学 习 方 

法 。 学 习 如 何 将 问题 分 解 成 可 以 通过 基准 测试 来 获得 答案 的 方法 ， 就 和 
在 数学 课 上 从 文字 题目 中 推导 出 方程 式 一 样 。 首 先 正 确 地 描述 问题 ， 之 
后 选择 合适 的 基准 测试 来 回答 问题 ， 设 置 基准 测试 的 持续 时 间 和 参数 ， 

运行 测试 ， 收 集 数 据 ， 分 析 结 果 数 据 ， 这 一 系列 的 训练 可 以 帮助 你 成 为 
更 好 的 MySQL 用户。 








如 果 你 还 没有 做 过 基准 测试 ， 那 么 建议 至 少 要 熟悉 sysbench。 可 以 
先 学 习 如 何 使 用 oltp 和 fileio 测 试 。oltp 基 准 测试 可 以 很 方便 地 比较 不 
同系 统 的 性 能 。 男 一 方面 ， 文 件 系 统 和 磁盘 基准 测试 ， 则 可 以 在 系统 出 
现 问题 时 有 效 地 诊断 和 隔离 异常 的 组 件 。 通 过 这 样 的 基准 测试 ， 我 们 多 
次 发 现 了 一 些 数据 库 管 理 员 的 说 法 存在 问题 ， 比 如 SAN 存 储 真 的 出 现 了 
一 块 坏 盘 ， 或 者 RAID 控 制 器 的 缓存 策略 的 配置 并 不 是 像 工 具 中 显示 的 
那样 。 通 过 对 单 块 磁盘 进行 基准 测试 ， 如 果 发 现 每 秒 可 以 执行 14000 次 
随机 读 ， 那 要 么 是 磁 到 了 严重 的 错误 ， 要 么 是 配置 出 现 了 问题 9 。 











如 采 经 党 执行 基准 训 试 ， 那 么 制定 一 些 原 则 是 很 有 必要 的 。 选 择 一 
些 合适 的 测试 工具 并 深入 地 学 习 。 可 以 建立 一 个 脚本 库 ， 用 于 配置 基准 
测试 ， 收 集 输 出 结果 、 系 统 性 能 和 状态 信息 ， 以 及 分 析 结 果 。 使 用 一 种 
熟练 的 绘图 工具 如 gnuplot 或 者 R 不 用 浪费 时 间 使 用 电子 表格 ， 它 们 既 
举重 ， 速 度 又 慢 ) 。 尽 量 早 和 多 地 使 用 绘图 的 方式 ， 来 发 现 基 准 测 试 和 
系统 中 的 问题 和 错误 。 你 的 眼睛 是 比 任何 脚本 和 自动 化 工具 都 更 有 效 的 
发 现 问 题 的 工具 。 




















(1) 特别 是 一 些 论 坛 软件 ， 已 经 让 很 多 管理 
问 网 站 。 


























员 错 误 地 相信 同时 有 成 和 干 上 万 的 用 户 正 在 同时 访 








(2) Justin Bieber， 我 们 爱 你 。 这 只 是 开 个 玩笑 。 
(3) 当然 ， 做 这 么 多 的 前 提 是 希望 获得 完美 的 基准 测试 结果 ， 实 际 情况 通常 不 会 很 顺利 。 











(4) ”顺便 说 一 下 ， 写 WO 的 活动 图 展示 的 性 





能 非常 差 。 这 个 系统 的 稳定 状态 从 性 能 上 来 说 是 

















一 种 灾难 。 已 经 达到 “稳定 ”可 以 说 是 笑话 ， 不 过 这 里 我 们 的 重点 在 于 说 明 系 统 的 长 期 行为 。 


























(5) 关于 pt-diskstats 工 具 的 更 多 信息 ， 请 参考 第 9 章 。 


(6) 有 时 ， 这 并 不 是 问题 。 例 如 ， 如 果 正 在 考虑 从 基于 SPARC 的 Solaris 系 统 迁移 到 基于 x86 
的 GNU/Linux 系 统 ， 就 没有 必要 测试 基于 x86 的 Solaris 作 为 中 间 过 程 。 


(2) 本 书 的 任何 一 位 作者 都 还 没 发 生 过 这 样 的 事情 ， 仅 供 参 考 。 























(8) 如 果真 的 需要 科学 可 靠 的 结果 ， 应 该 去 认 
已 经 超出 了 本 书 讨论 的 范畴 。 


(9) ”英语 中 plot 既 有 “阴谋 ”的 意思 ， 也 有 “绘图 ”的 意思 ， 所 以 这 里 是 一 句 双 关 语 。 一 一 译 者 





注 





(10) 本 书 作者 之 一 碰 到 了 这 个 问题 ， 因 为 























卖 读 关于 如 何 设计 和 执行 可 控 测 试 的 书籍 ， 这 个 



































Sergent reas Niet ae 只 执行 一 次 表达 式 





的 时 间 居 然 差不多 ， 这 只 能 说 明 缓 存 命中 了 。 实 际 上 ， 当 磁 到 此 类 情况 时 ， 第 一 反应 就 应 当 是 


绥 存 命中 或 者 出 错 了 。 
(11) 我 们 是 在 笔记 本 电脑 上 运行 这 个 基准 
度 肯 定 比 这 快 得 多 。 



























































测试 的 ， 这 只 是 作为 演示 用 的 。 真 实 服务 器 的 速 














(12) 一 块 机 械 磁 盘 每 秒 只 能 执行 几 百 次 的 随机 读 操作 ， 因 为 寻 道 操作 是 需要 时 间 的 。 


第 3 晶 ”服务 器 性 能 剂 析 

在 我 们 的 技术 咨询 生涯 中 ， 最 常 碰 到 的 三 个 性 能 相关 的 服务 请 求 
Fe: 如 何 确认 服务 器 是 否 达到 了 性 能 最 佳 的 状态 、 找 出 某 条 语句 为 什么 
执行 不 够 快 ， 以 及 诊断 被 用 户 摘 述 成 “停顿 ”“ 推 积 ? 或 者 “ 卡 死 ” 的 某 些 
间歇 性 疑难 故障 。 本 章 将 主要 针对 这 三 个 问题 做 出 解答 。 我 们 将 提供 一 
些 工 具 和 技巧 来 优化 整 机 的 性 能 、 优 化 单条 语句 的 执行 速度 ， 以 及 诊断 
或 者 解决 那些 很 难 观察 到 的 问题 (这 些 问 题 用 户 往往 很 难 知 道 其 根源 ， 
有 时 候 甚至 都 很 难 察 觉 到 它 的 存在 ) 。 


这 看 起 来 是 个 艰巨 的 任务 ， 但 是 事实 证 明 ， 有 一 个 简单 的 方法 能 够 
从 噪声 中 发 现 凋 头 。 这 个 方法 吏 是 专注 于 测量 服务 器 的 时 间 花 寓 在 哪 
里 ， 使 用 的 技术 则 是 性 能 剖析 (profiling) 。 在 本 章 ， 我 们 将 展示 如 何 
训 量 系统 并 生成 副 析 报告 ， 以 及 如 何 分 析 系 统 的 整个 堆栈 (stack) ， 包 
括 从 应 用 程序 到 数据 库 服 务 器 到 单个 查询 。 








首先 我 们 要 保持 空 标 精 神 ， 抛 弃 挥 一 些 关 于 性 能 的 常见 的 误解 。 这 
有 一 定 的 难度 ， 下 面 我 们 一 起 通过 一 些 例子 来 说 明 问题 在 哪里 。 


3.1 性 能 优化 简介 


问 10 个 人 关于 性 能 的 问题 ， 可 能 会 得 到 10 个 不 同 的 回答 ， 比 如 “每 
秒 查 询 次 数 "、“CPU 利 用 率 ”、“ 可 扩展 性 ”之 类 。 这 其 实 也 没有 问题 ， 每 
个 人 在 不 同 场景 下 对 性 能 有 不 同 的 理解 ， 但 本 章 将 给 性 能 一 个 正式 的 定 
义 。 我 们 将 性 能 定义 为 完成 某 件 任务 所 需要 的 时 间 度 量 ， 换 句 话说 ， 人 性 
能 即 响应 时 间 ， 这 是 一 个 非常 重要 的 原则 。 我 们 通过 任务 和 时 间 而 不 是 
资源 来 测量 性 能 。 数 据 库 服务 器 的 目的 是 执行 SQL 语句 ， 所 以 它 关 注 的 
任务 是 查询 或 者 语句 ， 如 SELECT、UPDATE、DELETE 等 由。 数据 库 服务 器 
的 性 能 用 查询 的 响应 时 间 来 上 度量， 单位 是 每 个 查询 花费 的 时 间 。 











还 有 妨 外 一 个 问题 ,什么 是 优化 ? 我 们 暂时 不 讨论 这 个 问题 ， 而 是 
假设 性 能 优化 就 是 在 一 定 的 工作 负载 下 尽 可 能 地 号 降低 响应 时 间 。 





很 多 人 对 此 很 迷茫 。 假 如 你 认为 性 能 优化 是 降低 CPU 利用 率 ， 那 么 
可 以 减少 对 资源 的 使 用 。 但 这 是 一 个 陷阱 ， 资 源 是 用 来 消耗 并 用 来 工作 
的 ， 所 以 有 时 候 消 耗 更 多 的 资源 能 够 加 快 碍 询 速度 。 很 多 时 候 将 使 用 老 
版 本 InnoDB 引 擎 的 MySQL 升 级 到 新 版 本 后 ，CPU 利 用 率 会 上 升 得 很 历 
害 ， 这 并 不 代表 性 能 出 现 了 问题 ， 反 而 说 明 新 版 本 的 InnoDB 对 资源 的 
利用 率 上 升 了 。 碍 询 的 啊 应 时 间 则 更 能 体现 升级 后 的 性 能 是 不 是 变 得 更 
好 。 版 本 升级 有 时 候 会 带 来 一 些 pug， 比 如 不 能 利用 某 些 索引 从 而 导致 
CPU 利用 率 上 升 。CPU 利 用 率 只 是 一 种 现象 ， 而 不 是 很 好 的 可 上 度量 的 目 
标 。 

















同样 ， 如 末 把 性 能 优化 仅仅 看 成 是 提升 每 秒 香 询 量 ， 这 其 实 只 是 在 
吐 量 优化 。 知 吐 量 的 提升 可 以 看 作 性 能 优化 的 副产品 急 。 对 查询 的 优化 











FY VALERA i BERD PAT BE WEH, PL eR ee AT A NYT) BE 
CF lth Be AE SC FC Te] A Ev ee, CIE ee BOTT PE AY EC 
的 倒数 ) 。 








所 以 如 果 目 标 是 降低 啊 应 时 间 ， 那 么 就 需要 理解 为 什么 服务 器 执行 
查询 需要 这 么 多 时 间 ， 然 后 去 减少 或 者 消除 那些 对 获得 查询 结果 来 说 不 
必要 的 工作 。 也 就 是 说 ， 先 要 摘 清 楚 时 间 花 在 哪里 。 这 就 引申 出 优化 的 
第 二 个 原则 : 无 法 测量 就 无 法 有 效 地 优化 。 所 以 第 一 步 应 该 测量 时 间 花 
在 什么 地 方 。 


我 们 观 罕 到 ， 很 多 人 在 优化 时 ， 郑 将 精力 放 在 修改 一 些 东 西 上 ， 却 
很 少 去 进行 精确 的 测量 。 我 们 的 做 法 完全 相反 ， 将 花费 非 第 多 ， 甚 至 
90%% 的 时 间 来 测量 啊 应 时 间 花 在 哪里 。 如 果 通 过 测量 没有 找到 答案 ， 那 
要 么 是 测量 的 方式 错 了 ， 要 么 是 测量 得 不 够 完整 。 如 果 测 量 了 系统 中 完 
整 而 且 正 确 的 数据 ， 性 能 问题 一 般 都 能 骏 露 出 来 ， 对 钙 下 药 的 解决 方案 
也 就 比较 明 了。 测量 是 一 项 很 有 挑战 性 的 工作 ， 并 且 分 析 结 果 也 同样 有 
挑战 性 ， 测 出 时 间 花 在 哪里 ， 和 知道 为 什么 花 在 那里 ， 是 两 码 事 。 




















前 面 提 到 需要 合适 的 测量 范围 ， 这 是 什么 意思 呢 ? 合适 的 测量 范围 
说 只 测量 需要 优化 的 活动 。 有 两 种 比较 常见 的 情况 会 寻 致 不 合适 的 测 


an 


。 在 错误 的 时 间 司 动 和 停止 测量 。 
。 测量 的 是 聚合 后 的 信息 ， 而 不 是 目标 活动 本 身 。 








例如 ， 一 个 利 见 的 错误 是 先 查 看 慢 香 询 ， 然 后 又 去 排查 整个 服务 器 
的 情况 来 判断 问题 在 哪里 。 如 果 确 认 有 慢 碍 询 ， 那 么 就 应 该 测量 慢 碍 
询 ， 而 不 是 测量 整个 服务 器 。 测 量 的 应 该 是 从 慢 碍 询 的 开始 到 结束 的 时 














间 ， 而 不 是 查询 之 前 或 查询 之 后 的 时 间 。 


完成 一 项 任务 所 需要 的 时 间 可 以 分 成 两 部 分 : 执行 时 间 和 等 待 时 
间 。 如 果 要 优化 任务 的 执行 时 间 ， 最 好 的 办 法 是 通过 测量 定位 不 同 的 子 
任务 花费 的 时 间 ， 然 后 优化 去 掉 一 些 子 任务 、 降 低 子 任务 的 执行 频率 或 
者 提升 子 任务 的 效率 。 而 优化 任务 的 等 竺 时间 则 相对 要 复杂 一 些 ， 因 为 
等 待 有 可 能 是 由 其 他 系统 间接 影响 导致 ， 任 务 之 间 也 可 能 由 于 争 用 磁盘 
或 者 CPU 资源 而 相互 影响 。 根 据 时 间 是 花 在 执行 还 是 等 待 上 的 不 同 ， 诊 
吓 也 需要 不 同 的 工具 和 技术 。 











刚才 说 到 需要 定位 和 优化 子 任务 ,但 只 是 一 笔 带 过 。 一 些 运行 不 频 
繁 或 者 很 短 的 子 任务 对 整体 啊 应 时 间 的 影响 很 小 ， 通 常 可 以 忽略 不 计 。 
那么 如 何 确认 哪些 子 任务 是 优化 的 目标 呢 ? 这 个 时 候 性 能 剖析 就 可 以 铂 
EHH J. 








如 何 判断 测量 是 正确 的 ? 


如 果 测 量 是 如 此 重要 ， 那 么 测量 错 了 会 有 什么 后 果 ? 实际 上 ， 测 
笃 常 都 是 错误 的 。 对 数量 的 测量 并 不 等 于 数量 本 身 。 测 量 的 错误 可 
] 


很 ， 


， 跟 实际 情况 区 别 不 大 ， 但 错 的 终归 是 错 的 。 所 以 这 个 问题 其 
实 应 该 是 : “测量 到 底 有 多 么 不 准确 ? ”这 个 问题 在 其 他 一 些 书 中 有 
详细 的 讨论 ， 但 不 是 本 书 的 主题 。 但 是 要 意识 到 使 用 的 是 测量 数据 ， 
而 不 是 其 所 代表 的 实际 数据 。 通 常 来 说 ， 测 量 的 结果 也 可 能 有 多 种 模 
糊 的 表现 ， 这 可 能 导致 推断 出 错误 的 结论 。 





3.1.1 iE RET ETM 


EL fl FE SE BR TEL TD Me MNT TC TIA WR ies BES WT HT 
AABET VERE HT (profiling) 。 


PE BE eal AP ed ae AI 9} NY Td ee EB RL EBT, PERE TH — A 
有 两 个 步骤 : 测量 任务 所 花费 的 时 间 ; 然后 对 结果 进行 统计 和 排序 ， 将 
重要 的 任务 排 到 前 面 。 








性 能 剖析 工具 的 工作 方式 基本 相同 。 在 任务 开始 时 启动 计时 器 ， 在 
任务 结束 时 停止 计时 器 ， 然 后 用 结束 时 间 减 去 启动 时 间 得 到 啊 应 时 间 。 
也 有 些 工 具 会 记录 任务 的 父 任 务 。 这 些 结果 数据 可 以 用 来 绘制 调用 关系 
图 ， 但 对 于 我 们 的 目标 来 说 更 重要 的 是 ， 可 以 将 相似 的 任务 分 组 并 进行 
汇总 。 对 相似 的 任务 分 组 并 进行 汇总 可 以 帮助 对 那些 分 到 一 组 的 任务 做 
更 复杂 的 统计 分 析 ， 但 至 少 需要 知道 每 一 组 有 多 少 任务 ， 并 计算 出 总 的 
啊 应 时 间 。 通 过 性 能 剖析 报告 (profile report) 可 以 获得 需要 的 结 
性 能 剖析 报告 会 列 出 所 有 任务 列表 。 每 行 记录 一 个 任务 ， 包 括 任务 名 、 
任务 的 执行 时 间 、 任 务 的 消耗 时 间 、 任 务 的 平均 执行 时 间 ， 以 及 该 任务 
执行 时 间 占 全 部 时 间 的 百分比 。 性 能 前 析 报 告 会 按照 任务 的 消耗 时 间 进 
行 降序 排序 。 




















为 了 更 好 地 说 明 ， 这 里 举 一 个 对 整个 数据 库 服 务 器 工作 负载 的 性 能 
剖析 的 例子 ， 主 要 输出 的 是 各 种 类 型 的 查询 和 执行 查询 的 时 间 。 这 是 从 
整体 的 角度 来 分 析 响 应 时 间 ， 后 面 会 演示 其 他 角度 的 分 析 结 果 。 下 面 的 
输出 是 用 Percona Toolkit 中 的 pt-query-digest〔( 实 际 上 就 是 著名 的 Maatkit 
工具 中 的 mk-query-digest) 分 析 得 到 的 结果 。 为 了 显示 方便 ， 对 结果 做 
了 一 些微 调 ， 并 且 只 截取 了 前 面 几 行 结果 : 


Rank Response time Calls R/Call Item 


1 11256.3618 68.1% 78069 0.1442 SELECT InvitesNew 
2 2029.4730 12.3% 14415 0.1408 SELECT StatusUpdate 
3 1345.3445 8.1% 3520 0.3822 SHOW STATUS 





ETA ce PERE HUT AGAR ED ELA RA DENY TET RA» RE 
Fal AT AY es SEY Bic“) ZA eo BEAT ALT S AV FY Mg Dc NY Ti] AT 
闻 的 百分比 、 碍 询 的 执行 次 数 、 单 次 执行 的 平均 啊 应 时 间 ， 以 及 该 得 询 
的 摘要 。 通 过 这 个 性 能 剖析 可 以 很 清楚 地 看 到 每 个 查询 相互 之 间 的 成 本 
比较 ， 以 及 每 个 查询 占 总 成 本 的 比较 。 在 这 个 例子 中 ， 任 务 指 的 就 是 碍 
询 ， 实 际 上 在 分 析 MySQL 的 时 候 经 常 都 指 的 是 查询 。 

















我 们 将 实际 地 讨论 两 种 类 型 的 性 能 训 析 : 基于 执行 时 间 的 分 析 和 基 
于 等 待 的 分 析 。 基 于 执行 时 间 的 分 析 研 究 的 是 什么 任务 的 执行 时 间 最 
长 ， 而 基于 等 待 的 分 析 则 是 判断 任务 在 什么 地 方 被 阻 于 的 时 间 最 长 。 





如 琳 任 务 执行 时 间 长 是 因为 消耗 了 太 多 的 资源 且 大 部 分 时 间 花 弗 在 
执行 上 ， 等 待 的 时 间 不 多 ， 这 种 情况 下 基于 等 得 的 分 析 作 用 束 不 大 。 反 
之 亦 然 ， 如 果 任 务 一 二 在 等 每 ， 没 有 消耗 什么 资源 ， 去 分 析 执 行 时 间 束 
不 会 有 什么 结果 。 如 果 不 能 确认 问题 是 出 在 执行 还 是 等 待 上 ， 那 么 两 种 
方式 都 需要 试 试 。 后 面 会 给 出 详细 的 例子 。 











事实 上 ， 当 基于 执行 时 间 的 分 析 发 现 一 个 任务 需要 花费 太 多 时 间 的 
时 候 ， 应 该 深入 去 分 析 一 下 ， 可 能 会 发 现 某 些 “执行 时 间 ” 实 际 上 是 在 等 
待 。 例 如 ， 上 面 简单 的 性 能 剖析 的 输出 显示 表 1nvitesNew 上 的 SELECT 碍 
询 花 费 了 大 量 时 间 ， 如 果 深 入 研究 ， 则 可 能 发 现时 间 都 花费 在 等 待 O 
IK Eo 








在 对 系统 进行 性 能 剖析 前 ， 必 须 先 要 能 够 进行 测量 ， 这 需要 系统 可 
测量 化 的 支持 。 可 测量 的 系统 一 般 会 有 多 个 测量 点 可 以 捕获 并 收集 数 
据 ， 但 实际 系统 很 少 可 以 做 到 可 测量 化 。 大 部 分 系统 都 没有 多 少 可 测量 
点 ， 即 使 有 也 只 提供 一 些 活 动 的 计数 ， 而 没有 活动 花费 的 时 间 统 计 。 
MySQL 就 是 一 个 典型 的 例子 ， 直 到 版 本 5.5 才 第 一 次 提供 了 Performance 
Schema， 其 中 有 一 些 基 于 时 间 的 测量 点 所， 而 版 本 5.1 及 之 前 的 版 本 没 
有 任何 基于 时 间 的 测量 点 。 能 够 从 MySQL 收 集 到 的 服务 器 操作 的 数据 
大 多 是 show ”status 计 数 器 的 形式 ， 这 些 计 数 器 统计 的 是 某 种 活动 发 生 
的 次 数 。 这 也 是 我 们 最 终 决 定 创建 Percona ”Server 的 主要 原因 ，Percona 
Server 从 版 本 5.0 开 始 提供 很 多 更 详细 的 得 询 级 别 的 测量 点 。 

















虽然 理想 的 性 能 优化 技术 依赖 于 更 多 的 测量 点 ， 但 笠 运 的 是 ， 即 使 
系统 没有 提供 测量 点 ， 也 还 有 其 他 办 法 可 以 展开 优化 工作 。 因 为 还 可 以 
从 外 部 去 测量 系统 ， 如 果 测 量 失败 ， 也 可 以 根据 对 系统 的 了 解 做 出 一 些 
徘 详 的 猜测 。 但 这 么 做 的 时 候 一 定 要 记 住 ， 不 管 是 外 部 测量 还 是 猜测 ， 
数据 都 不 是 百分之百 准确 的 ， 这 是 系统 不 透明 所 带 来 的 风险 。 














举 个 例子 ， 在 Percona Server 5.0 中 ， 慢 查询 日 志 揭 露 了 一 些 性 能 低 
下 的 原因 ， 如 磁盘 IO 等 待 或 者 行 级 锁 等 待 。 如 果 日 志 中 显示 一 条 奏 询 
花费 10 秒 ， 其 中 9.6 秒 在 等 待 磁盘 WO， 那 么 追究 其 他 4% 的 时 间 花 费 在 哪 
里 就 没有 意义 ， 磁 盘 IO 才 是 最 重要 的 原因 。 


3.1.2 ”理解 性 能 剖析 


MySQL 的 性 能 剖析 (profile) 将 最 重要 的 任务 展示 在 前 面 ， 但 有 时 
候 没 显 示 出 来 的 信息 也 很 重要 。 可 以 参考 一 下 前 面 提 到 过 的 性 能 剖析 的 
例子 。 不 羊 的 是 ， 尽 管 性 能 谢 析 输出 了 排名 、 总 计 和 平均 值 ， 但 还 是 有 














很 多 需要 的 信息 是 缺失 的 ， 如 下 所 示 。 


值得 优化 的 查询 (worthwhile query) 








性 能 剖析 不 会 自动 给 出 哪些 得 询 值得 花 时 间 去 优化 。 这 把 我 们 
带 回 到 优化 的 本 意 ， 如 果 你 读 过 Cary Millsap 的 书 ， 对 此 就 会 有 更 
多 的 理解 。 这 里 我 们 要 再 次 强调 两 点 : 第 一 ， 一 些 只 占 总 啊 应 时 间 
比重 很 小 的 查询 是 不 值得 优化 的 。 根 据 阿 姆 达 尔 定 律 CAmdahl's 
Law) ， 对 一 个 占 总 啊 应 时 间 不 超过 5% 的 查询 进行 优化 ， 无 论 如 
何 努 力 ， 收 益 也 不 会 超过 5%。 第 二 ， 如 果 花 绩 了 1000 美 元 去 优化 
一 个 任务 ， 但 业务 的 收入 没有 任何 增加 ， 那 么 可 以 说 反而 导致 业务 
被 逆 优 化 了 1000 美 元 。 如 果 优 化 的 成 本 大 于 收益 ， 惑 应 当 停止 优 
化 。 

















异常 情况 


菏 些 任务 即使 没有 出 现在 性 能 谢 析 输出 的 前 面 也 需要 优化 。 比 
如 茶 些 任务 执行 次 数 很 少 ， 但 每 次 执行 都 非常 慢 ， 严 重 影响 用 户 体 
验 。 因 为 其 执行 频率 低 ， 所 以 总 的 啊 应 时 间 占 比 并 不 突出 。 





未 知 的 未 知人 ) 





一 亚 好 的 性 能 剖析 工具 会 显示 可 能 的 “丢失 的 时 间 ”。 丢 失 的 时 
间 指 的 古 任务 的 总 时 间 和 实际 测量 到 的 时 间 之 间 的 差 。 例 如 ， 如 果 
处 理 需 的 CPU 时 间 是 10 秒 ， 而 谢 析 到 的 任务 总 时 间 是 9.7 秒 ， 那 么 就 
有 300 坚 秒 的 丢失 时 间 。 这 可 能 是 有 些 任务 没有 训 量 到 ， 也 可 能 是 
由 于 训 量 的 误 关 和 精度 问题 的 缘故 。 如 果 工 具 发 现 了 这 类 问题 ， 则 
要 引起 重视 ， 因 为 有 可 能 错过 了 某 些 重要 的 事情 。 即 使 性 能 齐 析 没 











有 发 现 丢 失 时 间 ， 也 需要 注意 考虑 这 类 问题 存在 的 可 能 性 ， 这 样 才 
不 会 错过 重要 的 信息 。 我 们 的 例子 中 没有 显示 丢失 的 时 间 ， 这 是 我 
们 所 使 用 工具 的 一 个 局 限 性 。 


被 掩藏 的 细节 





性 能 剖析 无 法 显示 所 有 啊 应 时 间 的 分 布 。 只 相信 平均 值 是 非常 
危险 的 ， 它 会 隐藏 很 多 信息 ， 而 且 无 法 表达 全 部 情况 。Peter 经 常 举 
例 说 医院 所 有 病人 的 平均 体温 没有 任何 价值 外。 假如 在 前 面 的 性 能 
剖析 的 例子 的 第 一 项 中 ， 如 果 有 两 次 俘 询 的 啊 应 时 间 是 1 秒 ， 而 为 
外 12771 次 查询 的 啊 应 时 间 是 几 十 微 秒 ， 结 果 会 怎样 ? 只 从 平均 值 
里 是 无 法 发 现 两 次 1 秒 的 查询 的 。 要 做 出 最 好 的 决策 ， 需 要 为 性 能 
剖析 里 输出 的 这 一 行 中 包含 的 12773 次 查询 提供 更 多 的 信息 ， 尤 其 
是 更 多 啊 应 时 间 的 信息 ， 比 如 直方 图 、 百 分 比 、 标 准 兰 、 仙 兰 指 数 


n 
等 。 

















好 的 工具 可 以 自动 地 获得 这 些 信 息 。 实 际 上 ，Ppt-query-digest 束 在 谢 
析 的 结果 里 包含 了 很 多 这 类 细 市 信息 ， 并 且 输 出 在 剖析 报告 中 。 对 此 我 
们 做 了 简化 ， 可 以 将 精力 集中 在 重要 而 基础 的 例子 上 : 通过 排序 将 最 郧 
贯 的 任务 排 在 前 面 。 本 章 后 面 会 展示 更 多 丰富 而 有 用 的 性 能 训 析 的 例 
Tea 














在 前 面 的 性 能 剖析 的 例子 中 ， 还 有 一 个 重要 的 缺失 ， 就 是 无 法 在 更 
高 层次 的 推 栈 中 进行 交互 式 的 分 析 。 当 我 们 仅仅 着 眼 于 服务 器 中 的 单个 
查询 时 ， 无 法 将 相关 但 询 联 系 起 来 ， 也 无 法 理解 这 些 查 询 是 否 是 同一 个 
用 户 交 互 的 一 部 分 。 性 能 训 析 只 能 省 中 舌 豹 ， 而 无 法 将 剖析 从 任务 扩展 
至 事务 或 者 页 面 查 看 (page view) 的 级 别 。 也 有 一 些 办 法 可 以 解决 这 个 
问题 ， 比 如 给 查询 加 上 特殊 的 注释 作为 标签 ， 可 以 标明 其 来 源 并 据 此 做 








聚合 ， 也 可 以 在 应 用 层面 增加 更 多 的 测量 点 ， 这 是 下 一 市 的 主题 。 


3.2 XIM H FENT ET VE fe a AT 


KEM ries BVA EIN TAD A ES ARE DET, Ate sa bv E 
序 。 实 际 上 ， 齐 析 应 用 程序 一 般 比 训 析 数据 库 服 务 器 容易 ， 而 且 回报 更 
多 。 虽 然 前 面 的 演示 例子 都 是 针对 MySQL 服 务 器 的 剖析 ， 但 对 系统 进 
行 性 能 剖析 还 是 建议 自 上 而 下 地 进行 四， 这 样 可 以 追踪 自用 户 发 起 到 服 
务 需 啊 应 的 整个 流程 。 虽 然 性 能 问题 大 多 数 情 况 下 都 和 数据 库 有 关 ， 但 
应 用 导致 的 性 能 问题 也 不 少 。 性 能 瓶颈 可 能 有 很 多 影响 因素 : 

















。 外 部 资源 ， 比 如 调用 了 外 部 的 web 服务 或 者 搜索 引擎 。 

。 应 用 需要 处 理 大 量 的 数据 ， 比 如 分 析 一 个 超大 的 XML 文件 。 

。 在 循环 中 执行 昂贵 的 操作 ， 比 如 滥用 正则 表达 式 。 

。 使 用 了 低 效 的 算法 ， 比 如 使 用 暴力 搜索 算法 (naive search 
algorithm) 来 查找 列表 中 的 项 。 


笠 运 的 是 ， 确 定 MySQL 的 问题 没有 这 么 复杂 ， 只 需要 一 区 应 用 程 
序 的 剖析 工具 即 可 《作为 回报 ， 一 旦 拥有 这 样 的 工具 ， 束 可 以 从 一 开始 
就 写 出 高 效 的 代码 ) 。 


建议 在 所 有 的 新 项 目 中 都 考虑 包含 性 能 剖析 的 代码 。 往 己 有 的 项 目 
中 加 入 性 能 剖析 代码 也 许 很 困难 ， 新 项 目 就 简单 一 些 。 





性 能 剖析 本 里 会 导致 服务 器 变 慢 吗 ? 


说 “是 的 ”， 是 因为 性 能 言 | 析 确 实 会 导致 应 用 ， RE; 说 “不 
是 ”， 是 因为 性 能 剖析 可 以 帮助 应 用 运行 得 更 快 。 先 别 急 ， 下 面 就 解 


释 一 下 为 什么 这 么 说 。 


性 能 剖析 和 定期 检测 都 会 带 来 额外 开销 。 问 题 在 于 这 部 分 的 开销 
有 多 少 ， 并 且 由 此 获得 的 收益 是 否 能 够 抵消 这 些 开 销 。 


大 多 数 设计 和 构建 过 能 应 用 程序 的 人 相信 ， 应 该 尽 可 能 地 测 
量 一 切 可 以 测量 的 地 方 ， peg 带 来 的 额外 开销 ， 这 些 开 
销 应 该 被 当成 应 用 程序 的 一 部 分 。0racle 的 性 能 优化 大 师 Tom Kyte 曾 
被 问 到 0racle 中 的 测量 点 的 开销 ， 他 的 回答 是 ， 测 量 点 至 少 为 性 能 优 
化 贡献 了 10% 。 对 此 我 们 深 表 赞 同 ， 而 且 大 多 数 应 用 并 不 需要 每 天 都 
运行 详细 的 性 能 测量 ， 所 以 实际 贡献 甚至 要 超过 10% 。 即 使 不 同意 这 
个 观点 ， 为 应 用 构建 一 些 可 以 永久 使 用 的 轻 量 级 的 性 能 剖析 也 是 有 意 
a 如 果 系 统 没有 每 天 变化 的 性 能 统计 ， 则 碰 到 无 法 提前 预知 的 性 

瓶颈 就 是 一 件 头 痛 的 事情 。 发 现 问 题 的 时 候 ， 如 果 有 历史 数据 ， 则 
eee 介 值 是 无 限 的 。 而 且 性 能 数据 还 可 以 帮助 规划 好 硬件 采 
购 、 资 源 分 配 ， 以 及 预测 周期 性 的 性 能 尖峰 。 


那么 何谓 “ 轻 量 级 ”的 性 能 剖析 ? 比如 可 以 为 所 有 SQL 语句 计 
时 ， 加 上 脚本 总 时 间 统 计 ， 这 样 做 的 代价 不 高 ， 而 且 不 需要 在 每 次 页 
面 查看 (page view) 时 都 执行 。 如 果 流 量 趋 势 比 较 稳 定 ， 随 机 采样 
也 可 以 ， 随 机 采样 可 以 通过 在 应 用 程序 中 设置 实现 : 


<?php 
$profiling_enabled=rand (0, 100) >99; 


?> 


这 样 只 有 1% 的 会 话 会 执行 性 能 采样 ， 来 帮助 定位 一 些 严重 的 问 
题 。 这 种 策略 在 生产 环境 中 尤其 有 用 ， 可 以 发 现 一 些 其 他 方法 无 法 发 


现 的 问题 。 


儿 年 前 在 写作 本 书 的 第 三 版 的 时 候 ， 流 行 的 Web 编 程 语 言 和 框架 中 
还 没有 太 多 现成 的 性 能 剖析 工具 可 以 用 于 生产 环境 ， 所 以 在 书 中 展示 了 
一 段 示例 代码 ， 可 以 简单 而 有 效 地 复制 使 用 。 而 到 了 今天 ， 已 丝 有 了 很 
多 好 用 的 工具 ， 要 做 的 只 是 打开 工具 箱 ， 束 可 以 开始 优化 性 能 。 





自 先 ， 这 里 要 “ 儿 售 ”的 一 个 好 工具 是 一 球 叫 做 New Relic 的 软件 即 服 
J (software-as-a-service) 产品 。 声 明 一 下 我 们 不 是 “ 托 ”， 我 们 一 般 不 
会 推荐 某 个 特定 公司 或 产品 ， 但 这 个 工具 真 的 非常 棒 ， 建 议 大 家 都 用 
它 。 我 们 的 客户 借助 这 个 工具 ， 在 没有 我 们 帮助 的 情况 下 ， 解 决 了 很 多 
问题 ， 即 使 有 时 候 找 不 到 解决 办 法 ， 但 依然 能 够 帮助 定位 到 问题 。New 
Relic 会 插入 到 应 用 程序 中 进行 性 能 剖析 ， 将 收集 到 的 数据 发 送 到 一 个 基 
于 Web 的 仪表 盘 ， 使 用 仪表 盘 可 以 更 容易 利用 面 癌 啊 应 时 间 的 方法 分 析 
应 用 性 能 。 这 样 用 户 只 需要 考虑 做 那些 正确 的 事情 ， 而 不 用 考虑 如 何 去 
做 。 而 且 New Relic 测 量 了 很 多 用 户 体 验 相关 的 点 ， 涵 盖 从 Web 浏 览 器 到 
应 用 代码 ， 再 到 数据 库 及 其 他 外 部 调用 。 























New “Relic 这 类 工具 的 好 处 是 可 以 全 天 候 地 测量 生产 环境 的 代码 
既 不 限于 测试 环境 ， 也 不 限于 某 个 时 间 段 。 这 一 后 非常 重要 ， 因 为 
有 很 多 剖析 工具 或 者 调 量 点 的 代价 很 高 ， 所 以 不 能 在 生产 环境 全 天 候 运 
行 。 在 生产 环境 运行 ， 可 以 发 现 一 些 在 测试 环境 和 了 预 发 环境 无 法 发 现 的 
性 能 问题 。 如 果 工 具 在 生产 环境 全 天 候 运 行 的 成 本 太 高 ， 那 么 至 少 也 要 
在 集群 中 找 一 全 服务 器 运行 ， 或 者 只 针对 部 分 代码 运行 ， 原 因 请 参考 前 
面 的 “性 能 剖析 本 号 会 导致 服务 占 变 慢 吗 ?”。 























3.2.1 测量 PHP 应 用 程序 


如 果 不 使 用 New Relic， 也 有 其 他 的 选择 。 尤 其 是 对 PHP， 有 好 几 款 
工具 都 可 以 帮助 进行 性 能 剖析 。 其 中 一 球 叫 
做 xhprof Chttp://pecl.php.net/package/xhprof) ， 这 是 Facebook 开 发 给 内 
部 使 用 的 ， 在 2009 年 开源 了 。xhprof 有 很 多 高 级 特性 ， 并 且 易 于 安装 和 
使 用 ， 它 很 轻 量 级 ， 可 扩展 性 也 很 好 ， 可 以 在 生产 环境 大 量 部 署 并 全 天 
候 使 用 ， 它 还 能 针对 函数 调用 进行 剖析 ， 并 根据 耗费 的 时 间 进 行 排 序 。 
相 比 xhprof， 还 有 一 些 更 底层 的 工具 ， 比 如 xdebug、Valgrind 和 
cachegrind， 可 以 从 多 个 角度 对 代码 进行 检测 电 。 有 些 工具 会 产生 大 量 
输出 ， 并 且 开 销 很 大 ， 并 不 适合 在 生产 环境 运行 ， 但 在 开发 环境 却 可 以 
发 挥 很 大 的 作用 。 





下 面 要 讨论 的 另外 一 个 PHP 性 能 前 析 工 具 是 我 们 自己 写 的 ， 基 于 本 
书 第 二 版 的 代码 和 原则 扩展 而 来 ， 名 叫 IP Cinstrumentation-for-php) ， 
代码 托管 在 Goole Code E Chttp://code.google.com/p/instrumentation-for- 
php/) 。Ifp 并 不 像 xhprof 一 样 对 PHP 做 深入 的 测量 ， 而 是 更 关注 数据 库 
调用 。 所 以 当 无 法 在 数据 库 层面 进行 测量 的 时 候 ，Ifp 可 以 很 好 地 帮助 应 
用 齐 析 数据 库 的 利用 率 。Ifp 是 一 个 提供 了 计数 器 和 计时 器 的 单 例 类 ， 很 
容易 部 普 到 生产 环境 中 ， 因 为 不 需要 访问 PHP 配 置 的 权限 《对 很 多 开发 
人 员 来 说 ， 都 没有 访问 PHP 配 置 的 权限 ， 所 以 这 一 点 很 重要 ) 。 














Ifp 不 会 自动 训 析 所 有 的 PHP 函 数 ， 而 只 是 针对 重要 的 函数 。 例 如 ， 
对 于 某 些 需要 谢 析 的 地 方 要 用 到 自 定 义 的 计数 右 ， 了 驶 需要 手工 局 动 和 停 
止 。 但 Ifp 可 以 自动 对 整个 页 面 的 执行 进行 计时 ， 这 样 对 自动 测量 数据 库 
和 memcached 的 调用 就 比较 简单 ， 对 于 这 种 情况 就 无 须 手 工 启动 或 者 停 
止 。 这 也 意味 着 ，Ifp 可 以 剖析 三 种 情况 : 应 用 程序 的 请 求 〈 如 page 














view) . SGN AWM. pet UK i eas AT AY As 
到 Apache， 通 过 Apache 可 以 将 结果 写 入 到 日 志 中 。 这 是 一 种 方便 且 轻 量 
的 记录 结果 的 方式 。Ifp 不 会 保存 其 他 数据 ， 所 以 也 不 需要 有 系统 管理 员 
的 权限 。 


使 用 Ifp， 只 需要 简单 地 在 页 面 的 开始 处 调用 start_request () 。 理 
想 情 况 下 ， 在 程序 的 一 开始 就 应 当 调 用 : 


require_once('Instrumentation.php'); 


Instrumentation: :get_instance()->start_request(); 





这 段 代码 注册 了 一 个 shutdown 函 数 ， 所 以 在 执行 结束 的 地 方 不 需要 
再 做 更 多 的 处 理 。 





Ifp 会 自动 对 SQL 添 加 注释 ， 便 于 从 数据 库 的 查询 日 志 中 更 灵活 地 分 
析 应 用 的 情况 ， 通 过 SHOW PROCESSLI1ST 也 可 以 更 清楚 地 知道 性 能 低 的 查 
询 出 自 何 处 。 大 多 数 情 况 下 ， 定 位 性 能 低下 查询 的 来 源 都 不 容易 ， 尤 其 
是 那些 通过 字符 串 拼 接 出 来 的 查询 语句 ， 都 没有 办 法 在 源 代码 中 去 搜 
索 。 那 么 Ifp 的 这 个 功能 就 可 以 帮助 解决 这 个 问题 ， 它 可 以 很 快 定位 到 查 
询 是 从 何 处 而 来 的 ， 即 使 应 用 和 数据 库 中 间 加 了 代理 或 者 负载 均衡 层 ， 
也 可 以 确认 是 哪个 应 用 的 用 户 ， 是 哪个 页 面 请 求 ， 是 源 代码 中 的 哪个 函 
数 、 代 码 行 号 ， 甚 至 是 所 创建 的 计数 器 的 键 值 对 。 下 面 是 一 个 例子 : 





--File: index.php Line: 118 Function: fullCachePage request_i 


SELECT * FROM ... 


如 何 测量 MySQL 的 调用 取决 于 连接 MySQL 的 接口 。 如 果 使 用 的 是 
面 问 对 象 的 mysqli 接 口 ， 则 只 需要 修改 一 行 代码 : 将 构造 函数 从 mysgqli 
改 为 可 以 自动 测量 的 mysgli_x 即 可 。mysgli_x 构 造 函 数 是 由 Ifp 提 供 的 子 











类 ， 可 以 在 后 台 测 量 并 改写 查询 。 如 果 使 用 的 不 是 面 问 对 象 的 接口 ， 或 
者 是 其 他 的 数据 库 访问 层 ， 则 需要 修改 更 多 的 代码 。 如 果 数 据 库 调 用 不 
征 分 散在 代码 各 处 还 好 ， 人 否则 建议 使 用 集成 开发 环境 CIDE) 如 
Eclipse， 这 样 修改 起 来 要 容易 些 。 但 不 管 从 哪个 方面 来 看 ， 将 访问 数据 
库 的 代码 集中 到 一 起 都 可 以 说 是 最 佳 实践 。 

















Ifp 的 结果 很 容易 分 析 。Percona Toolkit 中 的 pt-query-digest 能 够 很 方 
便 地 从 查询 注释 中 抽取 出 键 值 对 ， 所 以 只 需要 简单 地 将 三 询 记录 到 
MySQL 的 日 志文 件 中 ， 再 对 日 志文 件 进 行 处 理 即 可 。Apache 的 
mod_log_config 模 块 可 以 利用 Ifp 输 出 的 环 场 变 量 来 定制 日 志 输 出 ， 其 中 
的 宏 %D 还 可 以 以 微 秒 级 记录 请 求 时 间 。 





也 可 以 通过 LOAD DATA 1INFILE 将 Apache 的 日 志 载 入 到 MySQL 数 据 
库 中 ， 然 后 通过 SQL 进行 查询 。 在 Itp 的 网 站 上 有 一 个 PDF 的 约 灯 片 ， 详 
细 给 出 了 使 用 示例 ， 包 括 查 询 和 命令 行 参数 都 有 。 


或 许 你 会 说 不 想 或 者 没 时 间 在 代码 中 加 入 测量 的 功能 ， 其 实 这 事 比 
想象 的 要 容易 得 多 ， 而 且 花 在 优化 上 的 时 间 将 会 由 于 性 能 的 优化 而 加 倍 
地 回报 给 你 。 对 应 用 的 测量 是 不 可 蔡 代 的 。 当 然 最 好 是 直接 使 用 New 
Relic. xhprof Ifp 或 者 其 他 已 有 的 优化 工具 ， 而 不 必 重 新 去 发 明 “ 轮 
as 








MySQL 企 业 监 控 器 的 查询 分 析 功 能 


MySQL 的 企业 监控 器 (Enterprise Monitor) 也 是 值得 考虑 的 工 
有 具 之 一 。 这 是 0racle 提 供 的 MySQL 商 业 服 务 支持 中 的 一 部 分 。 它 可 以 
捕获 发 送 给 服务 器 的 查询 ， 要 么 是 通过 应 用 程序 连接 MySQL 的 库 文 件 


实现 ， 要 么 是 在 代理 层 实 现 〈 我 们 并 不 太 建 议 使 用 代理 层 ) 。 该 工具 
有 设计 良好 的 用 户 界面 ， 可 以 直观 地 显示 查询 的 剖析 结果 ， 并 且 可 以 
根据 时 间 段 进行 缩放 ， 例 如 可 以 选择 某 个 异常 的 性 能 尖峰 时 间 来 查看 
状态 图 。 也 可 以 查看 EXPLAIN 出 来 的 执行 计划 ， 这 在 故障 诊断 时 非常 
有 用 。 





3.3 ”剖析 MySQL 查询 





对 碍 询 进行 性 能 齐 析 有 两 种 方式 ， 每 种 方式 都 有 各 上 自 的 问题 ， 本 章 
会 详细 介绍 。 可 以 训 析 整个 数据 库 服务 右 ， 这 样 可 以 分 析出 哪些 查询 是 
主要 的 压力 来 源 (如果 已 经 在 最 上 面 的 应 用 层 做 过 神 析 ， 则 可 能 已 经 知 
道 哪些 碍 询 需 要 特别 留意 ) 。 定 位 到 具体 需要 优化 的 查询 后 ， 也 可 以 外 
取 下 去 对 这 些 碍 询 进行 单独 的 剖析， 分 析 哪 些 子 任务 是 啊 应 时 间 的 主要 
消耗 者 。 


3.3.1 FTAA as T E, 
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东 些 特定 的 难题 。 还 可 以 降低 服务 器 的 整体 压力 ， 这 样 所 有 的 碍 询 都 将 
因为 减少 了 对 共享 资源 的 争 用 而 受益 (“间接 的 好 处 ”) 。 降 低 服 务 器 的 
负载 也 可 以 推迟 或 者 避免 升级 更 昂贵 硬 件 的 需求 ， 还 可 以 发 现 和 定位 粳 
糕 的 用 户 体验 ， 比 如 某 些 极端 情况 。 











MySQL 的 每 一 个 新 版 本 中 都 增加 了 更 多 的 可 测量 点 。 如 果 当 前 的 
趋势 可 徘 的 话 ， 那 么 在 性 能 方面 比较 重要 的 测量 需求 很 快 能 够 在 全 球 范 
围 内 得 到 文 持 。 但 如 果 只 是 需要 剖析 并 找 出 代价 高 的 查询 ， 惑 不 需要 如 
此 复杂 。 有 一 个 工具 很 早 之 前 台 能 帮 到 我 们 了 ， 这 就 是 慢 奋 询 日 志 。 

















捕获 MySQL 的 但 询 到 日 志文 件 中 
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析 却 需要 针对 所 有 的 查询 。 而 且 在 MySQL 5.0 及 之 前 的 版 本 中 ， 慢 查询 
日 志 的 啊 应 时 间 的 单位 是 秒 ， 粒 度 太 粗 了 。 垃 运 的 是 ， 这 些 限制 都 已 经 
成 为 历史 了 。 在 MYSQL ”5.1 及 更 新 的 版 本 中 ， 慢 日 志 的 功能 已 经 被 加 
强 ， 可 以 通过 设置 long_query_time 为 0 来 捕获 所 有 的 查询 ， 而 且 人 查询 的 
啊 应 时 间 单 位 已 经 可 以 做 到 微 秒 级 。 如 果 使 用 的 是 Percona Server, ASA 
5.0 版 本 就 有 具备 了 这 些 特性 ， 而 且 Percona Server 提 供 了 对 日 志 内 容 和 查 
询 捕 获 的 更 多 控制 能 























在 MySQL 的 当前 版 本 中 ， 慢 查询 日 志 是 开销 最 低 、 精 度 最 蜗 的 测 
量 碍 询 时 间 的 工具 。 如 条 还 在 担心 开局 慢 碍 询 日 志 会 市 来 额外 的 IO 开 
销 ， 那 大 可 以 放心 。 我 们 在 IO 密集 型 场景 做 过 基准 测试 ， 慢 碍 询 日 志 
带 来 的 开销 可 以 忽略 不 计 《 实 际 上 在 CPU 密集 型 场景 的 影响 还 稍微 大 一 
些 ) 。 更 需要 担心 的 是 日 志 可 能 消耗 大 量 的 磁盘 空间 。 如 果 长 期 开启 慢 
查询 日 志 ， 注 意 要 部 署 日 志 轮 转 Cog rotation) 工具 。 或 者 不 要 长 期 启 
用 慢 查 询 日 志 ， 只 在 需要 收集 负载 样本 的 期 间 开 局 即 可 。 




















MySQL 还 有 另外 一 种 查询 日 志 ， 和 被 称 之 为 “通用 日 志 ”， 但 很 少 用 于 
分 析 和 谢 析 服务 器 性 能 。 通 用 日 志 在 碍 询 请 求 到 服务 器 时 进行 记录 ， 所 
以 不 包含 啊 应 时 间 和 执行 计划 等 重要 信息 。MySQL 5.1 之 后 文 持 将 日 志 
记录 到 数据 库 的 表 中 ， 但 多 数 情况 下 这 样 做 没什么 必要 。 这 不 但 对 性 能 
有 较 大 影响 ， 而 且 MySQL 5.1 在 将 慢 碍 询 记 录 到 文件 中 时 已 经 文 持 微 秒 
级 别 的 信息 ， 然 而 将 慢 奋 询 记录 到 表 中 会 导致 时 间 粒 度 退化 为 只 能 到 秒 
级 。 而 秒 级 别 的 慢 查 询 日 志 没 有 太 大 的 意义 。 



































Percona ”Server 的 慢 查 询 日 志 比 MySQL 官 方 版 本 记录 了 更 多 细节 且 
有 价值 的 信息 ， 如 查询 执行 计划 、 锁 、LIO 活 动 等 。 这 些 特性 都 是 随 着 
处 理 各 种 不 同 的 优化 场景 的 需求 而 慢 慢 加 进来 的 。 另 外 在 可 管理 性 上 也 
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样 当 应 用 使 用 连接 池 或 者 持久 连接 的 时 候 ， 可 以 不 用 重 置 会 话 级 别 的 变 
量 而 启动 或 者 停止 连接 的 查询 日 志 。 总 的 来 说 ， 慢 查询 日 志 是 一 种 轻 量 
而 且 功 能 全 面 的 性 能 剖析 工具 ， 是 优化 服务 器 查询 的 利器 。 























有 时 因为 某 些 原因 如 权限 不 足 等 ， 无 法 在 服务 器 上 记录 得 询 。 这 样 
的 限制 我 们 也 第 和 常 伴 到 ， 上 所 以 我 们 开发 了 两 种 蔡 代 的 技术 ， 都 集成 到 了 
Percona Toolkit 中 的 pt-query-digest 中 。 第 一 种 是 通过 --processlist 选 项 不 
it #2 SHOW FULL PROCESSLIST 的 输出 ， 记 录 碍 询 第 一 次 出 现 的 时 间 和 
消失 的 时 间 。 某 些 情况 下 这 样 的 精度 也 足够 发 现 问题 ， 但 却 无 法 捕获 所 
有 的 得 询 。 一 些 执行 较 快 的 查询 可 能 在 两 次 执行 的 间 隐 就 执行 完成 了 ， 
从 而 无 法 捕获 到 。 











第 二 种 技术 是 通过 抓 取 TCP 网 络 包 ， 然 后 根据 MySQL 的 客户 端 / 服 
务 端 通信 协议 进行 解析 。 可 以 先 通 过 tcpdump 将 网 络 包 数据 保存 到 磁 
盘 ， 然 后 使 用 ptquery-digest 的 --type=tcpdump 选 项 来 解析 并 分 析 查 询 。 
此 方法 的 精度 比较 高 ， 并 且 可 以 捕获 所 有 人 查询。 还 可 以 解析 更 高 级 的 协 
议 特 性 ， 比 如 可 以 解析 二 进 制 协议 ， 从 而 创建 并 执行 服务 端 预 解析 的 语 
AJ (prepared statement) 及 压缩 协议 。 另 外 还 有 一 种 方法 ， 融 是 通过 
MySQL Proxy 代 理 层 的 脚本 来 记录 所 有 得 询 ， 但 在 实践 中 我 们 很 少 这 样 
做 。 








分 析 查 询 日 志 








强烈 建议 大 家 从 现在 起 就 利用 慢 伍 询 日 志 捕 获 服 务 器 上 的 所 有 伍 
询 ， 并 且 进 行 分 析 。 可 以 在 一 些 典 型 的 时 间 窗 口 如 业务 高 峰 期 的 一 个 小 
时 内 记录 查询。 如 果 业 务 趋势 比较 均衡 ， 那 么 一 分 钟 甚至 更 短 的 时 间 内 


捕获 需要 优化 的 低 效 奏 询 也 是 可 行 的 。 


不 要 直接 打开 整个 慢 人 询 日 志 进 行 分 析 ， 这 样 做 只 会 浪费 时 间 和 人 金 
钱 。 首 先 应 该 生成 一 个 剖析 报告 ， 如 果 需 要 ， 则 可 以 再 查看 日 志 中 需要 
特别 关注 的 部 分 。 目 顶 癌 下 是 比较 好 的 方式 ， 含 则 有 可 能 像 前 面 提 到 
的 ， 反 而 导致 业务 的 逆 优 化 。 














从 慢 碍 询 日 志 中 生成 训 析 报告 需要 有 一 款 好 工具 ， 这 里 我 们 建议 使 
用 pt-query-digest， 这 坚 无 疑问 是 分 机 MySQL 碍 询 日 志 最 有 力 的 工具 。 
该 工具 功能 强大 ， 包 括 可 以 将 查询 报告 保存 到 数据 库 中 ， 以 及 奶 中 工作 
负载 随时 间 的 变化 。 

















一 般 情况 下 ， 只 需要 将 慢 查 询 日 志文 件 作为 参数 传递 给 pt-query- 
digest， 就 可 以 正确 地 工作 了 。 它 会 将 查询 的 章 析 报告 打印 出 来 ， 并 且 
能 够 选择 将 "重要 ”的 查询 逐条 打印 出 更 详细 的 信息 。 答 出 的 报告 细节 详 
尽 ， 绝 对 可 以 让 生活 更 美好 。 该 工具 还 在 持续 的 开发 中 ， 因 此 要 了 解 最 
新 的 功能 请 阅读 最 新 版 本 的 文档 。 








这 里 给 出 一 份 pt-query-digest 输 出 的 报告 的 例子 ， 作 为 进行 性 能 剖析 
的 开始 。 这 是 前 面 提 到 过 的 一 个 未 修改 过 的 剖析 报告 : 
# Profile 


# Rank Query ID Response time Calls R/Call V/M Item 


# ==== ================== ================ ===== ====== ===== 
# 1 OXBFCF8E3F293F6466 11256.3618 68.1% 78069 0.1442 0.21 
# 2 Ox620B8CAB2B1C76EC 2029.4730 12.3% 14415 0.1408 0.21 
# 3 0xB90978440CC11CC7 1345.3445 8.1% 3520 0.3822 0.00 
# 4 OxCB73D6B5B031B4CF 1341.6432 8.1% 3509 0.3823 0.00 


# MISC OxMISC 560.7556 3.4% 23930 0.0234 0.0 








可 以 看 到 这 个 比 之 前 的 版 本 多 了 一 些 细节 。 首 先 ， 每 个 查询 都 有 一 
个 ID， 这 是 对 查询 语句 计算 出 的 哈 希 值 指 纹 ， 计 算 时 去 掉 了 查询 条 件 中 
的 文本 值 和 所 有 空格 ， 并 且 全 部 转化 为 小 写字 母 〈 请 注意 第 三 条 和 第 四 
条 语句 的 摘要 看 起 来 一 样 ， 但 哈 希 指纹 是 不 一 样 的 ) 。 该 工具 对 表 名 也 
有 类 似 的 规范 做 法 。 表 名 InvitesNew 后 面 的 问号 意味 着 这 是 一 个 分 片 
(shard) 的 表 ， 表 名 后 面 的 分 片 标识 被 问号 奉 代 ， 这 样 就 可 以 将 同一 组 
分 片 表 作为 一 个 整体 做 汇总 统计 。 这 个 例子 实际 上 是 来 自 一 个 压力 很 大 
的 分 片 过 的 Facebook 应 用 。 

















报告 中 的 V/M 列 提供 了 方 莽 均值 比 (variance-to-mean ratio) 的 详细 
数据 ， 方 差 均 值 比 也 就 是 常 说 的 离 差 指数 (index of dispersion) . Wz 
指数 高 的 查询 对 应 的 执行 时 间 的 变化 较 大 ， 而 这 类 查询 通常 都 值得 去 优 
化 。 如 果 pt-query-digest 指 定 了 --explain 选 项 ， 输 出 结果 中 会 增加 一 列 简 
要 描述 查询 的 执行 计划 ， 执 行 计划 是 查询 背后 的 “ 极 客 代 人 码 ”。 通 过 联合 
观察 执行 计划 列 和 V/M 列 ， 可 以 更 容易 识别 出 性 能 低下 需要 优化 的 查 
询 。 











最 后 ， 在 尾部 也 增加 了 一 行 输出 ， 显 示 了 其 他 17 个 占 比较 低 而 不 值 
得 单独 显示 的 查询 的 统计 数据 。 可 以 通过 --limit 利 --outliers 选 项 指定 工 
具 显 示 更 多 查询 的 详细 信息 ， 而 不 是 将 一 些 不 重要 的 但 询 汇 总 在 最 后 一 
行 。 默 认 只 会 打印 时 间 消 耗 前 10 位 的 查询 ， 或 者 执行 时 间 超 过 1 秒 阐 值 
很 多 倍 的 查询 ， 这 两 个 限制 都 是 可 配置 的 。 











剖析 报告 的 后 面包 含 了 每 种 碍 询 的 详细 报告 。 可 以 通过 和 查询 的 ID 或 
者 排名 来 匹配 前 面 的 剖析 统计 和 查询 的 详细 报告 。 下 面 是 排名 第 一 也 就 
是 “最 差 ?的 查询 的 详细 报告 : 











# Query 1: 24.28 QPS, 3.50x concurrency, ID OxBFCF8E3F293F6466 at byte 5590079 
# This item is included in the report because it matches --limit. 

# Scores: V/M = 0.21 

# Query time sparkline: | ^.^ | 

# Time range: 2008-09-13 21:51:55 to 22:45:30 

# Attribute pct total min max avg 95% stddev median 


# ==========EE = Sr Sees J EECEFE mostne Sates seseces 
# Count 63 78069 

# Exec time 68 112565 37us 1s 144ms 501ms 175ms 68ms 
# Lock time 85 134s 0 650ms 2ms 176us 20ms 57us 
# Rows sent 8 70.18k 0 îi 0.92 0.99 0.27 0.99 
# Rows examine 8 70.84k 0 3 0.93 0.99 0.28 0.99 
# Query size 84 10.43M 135 141 140.13 136.99 0.10 136.99 
# String: 

# Databases production 

# Hosts 

# Users fbappuser 

# Query time distribution 

# 1us 

# 10us # 

# 100us = ##HHHHHHHHHHHHHHHHHHHHHHHHH RH HRHHHHHHHHH 

# ims ### 


# 10ms = #HHHHHHHHHHHRHHH 
# 100mSs «#HHHHHHHHHAHHHHHHHHHHHHHH HARARE HHHHHHHH 


# SHOW TABLE STATUS FROM “production ` LIKE'InvitesNew82'\G 

E SHOW CREATE TABLE `production `.`InvitesNew82'\G 

# EXPLAIN /*!50100 PARTITIONS*/ 

SELECT InviteId, InviterIdentifier FROM InvitesNew82 WHERE (InviteSetId = 87041469) 
AND (InviteeIdentifier = 1138714082) LIMIT 1\G 


查询 报告 的 顶部 包含 了 一 些 元 数据 ， 包 括 查 询 执行 的 频率 、 平 均 并 
发 度 ， 以 及 该 得 询 性 能 最 兰 的 一 次 执行 在 日 志文 件 中 的 字 布 偶 移 值 ， 接 
下 来 还 有 一 个 表格 格式 的 元 数据 ， 包 括 诸如 标准 差 一 类 的 统计 信息 乌 








接 下 来 的 部 分 是 啊 应 时 间 的 直方 图 。 有 趣 的 是 ， 可 以 看 到 上 面 这 个 
查询 在 Query time _ distribution 部 分 的 直方 图 上 有 两 个 明显 的 高 峰 ， 
大 部 分 情况 下 执行 都 需要 几 百 训 秒 ， 但 在 快 三 个 数量 级 的 部 分 也 有 一 个 
明显 的 尖峰 ， 几 百 微 秒 就 能 执行 完成 。 如 果 这 是 Percona Server 的 记录 ， 
那么 在 查询 日 志 中 还 会 有 更 多 丰富 的 属性 ， 可 以 对 得 询 进 行 切片 分 析 到 
底 发 生 了 什么 。 比 如 可 能 是 因为 查询 条 件 传递 了 不 同 的 值 ， 而 这 些 值 的 
分 布 很 不 均衡 ， 导 致 服务 器 选择 了 不 同 的 索引 ; ae 
中 等 。 在 实际 系统 中 ， 这 种 有 两 个 尖峰 的 直方 图 的 情况 很 少见 ， 尤 其 
对 于 简单 的 查询 ， 查 询 越 简单 执行 计划 也 越 稳定 。 



































在 细节 报告 的 最 后 部 分 是 方便 复制 、 粘 贴 到 终端 去 检查 表 的 模式 和 
状态 的 语句 ， 以 及 完整 的 可 用 于 EXPLAIN 分 析 执 行 计 划 的 语句 。EXPLAIN 
分 析 的 语句 要 求 所 有 的 条 件 是 文本 值 而 不 是 “指纹 ” 蔡 代 符 ， 所 以 是 真正 
可 直接 执行 的 语句 。 在 本 例 中 是 执行 时 间 最 长 的 一 条 实际 的 查询 。 








确定 需要 优化 的 查询 后 ， 可 以 利用 这 个 报告 迅速 地 检 碍 碍 询 的 执行 
情况 。 这 个 工具 我 们 经 常 使 用 ， 并 且 会 根据 使 用 的 情况 不 断 进 行 修正 以 
帮助 提升 工具 的 可 用 性 和 效率 ， 强 烈 建 议 大 家 都 能 熟练 使 用 它 。 
MySQL 本 刁 在 未 来 或 许 也 会 有 更 多 复杂 的 测量 点 和 齐 析 工具 ， 但 在 本 
书写 作 时 ， 通 过 慢 查 询 日 志 记 录 但 询 或 者 使 用 pt-query-digest 分 析 
tcpdump 的 结果 ， 是 可 以 找到 的 最 好 的 两 种 方式 。 


3.3.2 ”剖析 单条 查询 


在 定位 到 需要 优化 的 单条 查询 后 ， 可 以 针对 此 但 询 “ 钻 取 ” 更 多 的 信 
恩 ， 人 确认 为 什么 会 花费 这 么 长 的 时 间 执 行 ， 以 及 需要 如 何 去 优化 。 关 于 
如 何 优化 查询 的 技术 将 在 本 书后 续 的 一 些 章节 讨论 ， 在 此 之 前 还 需要 介 
绍 一 些 相关 的 背景 知识 。 本 章 的 主要 目的 是 介绍 如 何方 便 地 测量 查询 执 
行 的 各 部 分 花费 了 多 少时 间 ， 有 了 这 些 数 据 才能 决定 采用 何 种 优化 技 
术 。 





























FEWE, MySQL 目前 大 多 数 的 测量 点 对 于 剖析 查询 都 没有 什么 
帮助 。 当 然 这 种 状况 正在 改善 ， 但 在 本 书写 作 之 际 ， 大 多 数 生 产 环境 的 
服务 器 还 没有 使 用 包含 最 新 训 析 特性 的 版 本 。 所 以 在 实际 应 用 中 ， 除 了 
SHOW STATUS. SHOW PROFILE、 检 查 慢 查 询 日 志 的 条 目 〈( 这 还 要 求 必 须 
是 Percona Server， 官 方 MySQL 版 本 的 慢 碍 询 日 志 缺 失 了 很 多 附加 信 
D) 这 三 种 方法 外 就 没有 什么 更 好 的 办 法 了 。 下 面 将 逐一 演示 如 何 使 用 




















这 三 种 方法 来 剖析 单条 碍 询 ， 看 看 每 一 种 方法 是 如 何 显示 碍 询 的 执行 情 
况 的 。 


使 用 SHOW PROFILE 


SHOW PROFILE 命令 是 在 MySQL 5.1 以 后 的 版 本 中 引入 的 ， 来 源 于 开 
源 社区 中 的 Jeremy Cole 的 页 献 。 这 是 在 本 书写 作 之 际 唯一 一 个 在 GA 版 
本 中 包含 的 真正 的 查询 剖析 工具 。 默 认 是 禁用 的 ， 但 可 以 通过 服务 器 变 
BEST GER) 级 别 动 态 地 修改 。 





mysql> SET profiling = 1; 


然后 ， 在 服务 器 上 执行 的 所 有 语句 ， 都 会 测量 其 耗费 的 时 间 和 其 他 
一 些 查询 执行 状态 变更 相关 的 数据 。 这 个 功能 有 一 定 的 作用 ， 而 且 最 初 
的 设计 功能 更 强大 ， 但 未 来 版 本 中 可 能 会 被 Performance Schema 所 取 
代 。 尽 管 如 此 ， 这 个 工具 最 有 用 的 作用 还 是 在 语句 执行 期 间 剖 析 服 务 器 
的 具体 工作 。 








当 一 条 查询 提交 给 服务 器 时 ， 此 工具 会 记录 剖析 信息 到 一 张 临时 
表 ， 并 且 给 碍 询 赋予 一 个 从 1 开始 的 整数 标识 符 。 下 面 是 对 Sakila 样 本 数 
据 库 的 一 个 视图 的 剖析 结果 09: 


mysql> SELECT * FROM sakila.nicer_but_slower_film_list; 
[query results omitted] 


997 rows in set (0.17 sec) 





该 查询 返回 了 997 行 记录 ， 花 费 了 大 概 1/6 秒 。 下 面 看 一 下 SHOW 
PROFILES 有 什么 结果 : 


mysql> SHOW PROFILES; 
+ + 


----------+------------ +-------------------------------------------------+ 
| Query_ID | Duration | Query | 
+---------- +------------ +------------------------------------------------- + 
| 1 | 0.16767900 | SELECT * FROM sakila.nicer_but_slower_film list | 
+---------- +------------ +- + 





首先 可 以 看 到 的 是 以 很 高 的 精度 显示 了 碍 询 的 啊 应 时 间 ， 这 很 好 。 
MySQL 和 客户 端 显 示 的 时 间 只 有 两 位 小 数 ， 对 于 一 些 执行 得 很 快 的 碍 询 
这 样 的 精度 是 不 够 的 。 下 面 继续 看 接 下 来 的 输出 : 


mysql> SHOW PROFILE FOR QUERY 1; 








+---------------------- +---------- + 
Status Duration | 

+---------------------- +---------- + 
starting 0.000082 | 
Opening tables 0.000459 | 
System lock 0.000010 | 
Table lock 0.000020 | 
checking permissions | 0.000005 | 
checking permissions | 0.000004 | 
checking permissions | 0.000003 | 
checking permissions | 0.000004 | 
checking permissions | 0.000560 | 
optimizing 0.000054 | 
statistics 0.000174 | 
preparing 0.000059 | 
Creating tmp table 0.000463 | 
executing 0.000006 | 
Copying to tmp table | 0.090623 | 
Sorting result 0.011555 | 
Sending data 0.045931 | 
removing tmp table 0.004782 | 
Sending data 0.000011 | 
init 0.000022 | 
optimizing 0.000005 | 
statistics 0.000013 | 
preparing 0.000008 | 
executing 0.000004 | 
Sending data 0.010832 | 
end 0.000008 | 
query end 0.000003 | 
freeing items 0.000017 | 
removing tmp table 0.000010 | 
freeing items | 0.000042 | 
removing tmp table | 0.001098 | 
closing tables | 0.000013 


logging slow query | 0.000789 | 
cleaning up | 0.000007 | 
+---------------------- +---------- + 


| 
| 
| 
| logging slow query | 0.000003 | 
| 
| 


剖析 报告 给 出 了 全 询 执 行 的 每 个 步 又 及 其 花费 的 时 间 ， 看 结 末 很 难 
快速 地 确定 哪个 步 又 花费 的 时 间 最 多 。 因 为 输出 古 按照 执行 顺序 排序 ， 





而 不 是 按 花 费 的 时 i 的 是 花费 了 多 少时 

间 ， 这 样 才能 知道 哪些 开销 比较 大 。 但 不 幸 的 是 无 法 通过 诸如 ORDER BY 
之 类 的 命令 重新 排序 。 假 如 不 使 用 SHOW PROF1LE 命 令 而 是 直接 查询 

INFORMAT1ON_SCHEMA 中 对 应 的 表 ， 则 可 以 按照 需要 格式 化 输出 : 


mysql> SET @query id = 1; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SELECT STATE, SUM(DURATION) AS Total R, 
->  ROUND( 
> 100 * SUM(DURATION) / 
> (SELECT SUM(DURATION) 
-> FROM INFORMATION SCHEMA.PROFILING 
$ WHERE QUERY ID = @query id 
> ), 2) AS Pct_R, 
>  COUNT(*) AS Calls, 
>  SUM(DURATION) / COUNT(*) AS "R/Call" 
-> FROM INFORMATION SCHEMA. PROFILING 
-> WHERE QUERY_ID = @query id 
-> GROUP BY STATE 
-> ORDER BY Total_R — 

















+----------------------+---------- +------- +------- +-------------- + 
STATE | Total R | Pct_R | Calls | R/Call | 

$---------------------- +---------- +------- +------- +-------------- + 
Copying to tmp table | 0.090623 | 54.05 | 1 | 0.0906230000 | 
Sending data 0.056774 | 33.86 | 3 | 0.0189246667 
Sorting result 0.011555 | 6.89 | 1 | 0.0115550000 | 
removing tmp table 0.005890 | 3.51 | 3 | 0.0019633333 | 
logging slow query 0.000792 | 0.47 | 2 | 0.0003960000 | 
checking permissions | 0.000576 | 0.34 | 5 | 0.0001152000 | 
Creating tmp table 0.000463 | 0.28 1 | 0.0004630000 | 
Opening tables 0.000459 | 0.27 | 1 | 0.0004590000 | 
statistics 0.000187 | 0.11 2 | 0.0000935000 | 
starting 0.000082 | 0.05 1 | 0.0000820000 | 
preparing 0.000067 | 0.04 2 | 0.0000335000 | 
freeing items 0.000059 | 0.04 2 | 0.0000295000 | 
optimizing 0.000059 | 0.04 2 | 0.0000295000 | 
init 0.000022 | 0.01 1 | 0.0000220000 | 
Table lock 0.000020 | 0.01 1 | 0.0000200000 | 
closing tables 0.000013 | 0.01 1 | 0.0000130000 | 
System lock 0.000010 | 0.01 1 | 0.0000100000 | 
executing 0.000010 | 0.01 2 | 0.0000050000 | 
end 0.000008 | 0.00 1 | 0.0000080000 | 
cleaning up 0.000007 | 0.00 1 | 0.0000070000 | 
query end 0.000003 | 0.00 1 | 0.0000030000 | 

+---------------------- +---------- +------- +------- +-------------- + 


效果 好 多 了 ! 通过 这 个 结果 可 以 很 容易 看 到 查询 时 间 太 长 主要 是 因 
为 化 了 一 大 半 的 时 间 在 将 数据 复制 到 临时 表 这 一 步 。 那 么 优化 就 要 考虑 
如 何 改写 查询 以 避免 使 用 临时 表 ， 或 者 提升 临时 表 的 使 用 效率 。 第 二 个 
消耗 时 间 最 多 的 是 “发 送 数据 (Sending data) ”， 这 个 状态 代表 的 原因 非 


多 ， 可 能 是 各 种 不 同 的 服务 器 活动 ， 包 括 在 关联 时 搜索 匹配 的 行 记 录 
等 ， 这 部 分 很 难说 能 优化 节省 多 少 消耗 的 时 间 。 另 外 也 要 注意 到 “结果 
排序 CSorting result) ”花费 的 时 间 占 比 非常 低 ， 所 以 这 部 分 是 不 值得 去 
优化 的 。 这 是 一 个 比较 典型 的 问题 ， 所 以 一 般 我 们 都 不 建议 用 户 在 “ 优 
化 排序 缓冲 区 (tuning sort buffer) ?或 者 类 似 的 活动 上 花 时 间 。 


Èo J% 
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使 用 SHOW STATUS 


MySQL 的 SHOW STATUS 命令 返回 了 一 些 计 数 右 。 既 有 服务 器 级 别 的 
全 局 计数 器 ， 也 有 基于 某 个 连接 的 会 话 级 别 的 计数 器 。 例 如 其 中 的 
Queriesd 在 会 话 开 始 时 为 0， 每 提交 一 条 查询 增加 1。 如 果 执 行 SHOW 
GLOBAL STATUS 〈 注 意 到 新 加 的 GLOBAL 关键 字 ) ， 则 可 以 查看 服务 器 级 
别 的 从 服务 器 启动 时 开始 计算 的 查询 次 数 统计 。 不 同 计数 器 的 可 见 范 围 
不 一 样 ， 不 过 全 局 的 计数 器 也 会 出 现在 SHOW ”STATUS 的 结果 中 ， 容 易 被 
误 认 为 是 会 话 级 别 的， 和 干 万 不 要 搞 迷 糊 了 。 在 使 用 这 个 命令 的 时 候 要 注 
意 几 点 ， 就 像 前 面 所 讨论 的 ， 收 集合 适 级 别 的 测量 值 是 很 关键 的 。 如 果 
打算 优化 从 某 些 特定 连接 观察 到 的 东西 ， 测 量 的 却 是 全 局 级 别 的 数据 ， 
就 会 导致 混乱 。MySQL 官 方 手 册 中 对 所 有 的 变量 是 会 话 级 还 是 全 局 级 
做 了 详细 的 说 明 。 














SHOW _ STATUS 是 一 个 有 用 的 工具 ， 但 并 不 是 一 款 剖 析 工 具 42。SHOW 
STATUS 的 大 部 分 结果 都 只 是 一 个 计数 器 ， 可 以 显示 某 些 活动 如 读 索 引 的 
频繁 程度 ， 但 无 法 给 出 消耗 了 多 少时 间 。SHOW ”STATUS 的 结果 中 只 有 一 














条 指 的 是 操作 的 时 间 (lnnodb row lock time) ， 而 且 只 能 是 全 局 级 
的 ， 所 以 还 是 无 法 测量 会 话 级 别 的 工作 。 


尽管 SHOW ”STATUS 无 法 提供 基于 时 间 的 统计 ， 但 对 于 在 执行 完 查 询 
后 观察 某 些 计数 器 的 值 还 是 有 帮助 的 。 有 时 候 可 以 猜测 哪些 操作 代价 较 
高 或 者 消耗 的 时 间 较 多 。 最 有 用 的 计数 器 包括 句柄 计数 器 Chandler 
counter) 、 临 时 文件 和 表 计 数 嚣 等。 在 附录 B 中 会 对 此 做 更 详细 的 解 
释 。 下 面 的 例子 演示 了 如 何 将 会 话 级 别 的 计数 器 重 置 为 0， 然 后 查询 前 
m (“使 用 SHOW PROFILE”— i) 提 到 的 视图 ， 再 检查 计数 器 的 结果 : 

















mysql> FLUSH STATUS; 

mysql> SELECT * FROM sakila.nicer but slower film list; 

[query results omitted] 

mysql> SHOW STATUS WHERE Variable name LIKE 'Handler%' 
OR Variable name LIKE 'Createdx' ; 

+---------------------------- +------- + 

| Variable_name | Value | 


+ 一 一 一 一 一 一 一 
| Created tmp disk tables | 
| Created tmp files 
| Created tmp tables 
| Handler commit 
| Handler delete 
| Handler discover 
| Handler prepare 
| Handler read first 
| Handler read key 
| Handler read next 
| Handler read prev 
| Handler read rnd 
| Handler read rnd next 
| Handler rollback 
| Handler savepoint 
| Handler savepoint rollback | 
| Handler update 
| Handler write 

$ 


| 
| 
| 
| 
483, | 
462 | 
| 
| 
| 
| 
| 
| 
| 
从 结果 可 以 看 到 该 查询 使 用 了 三 个 临时 表 ， 其 中 两 个 是 磁盘 临时 
表 ， 并 且 有 很 多 的 没有 用 到 索引 的 读 操作 
(Handler_read_rnd_next) 。 假 设 我 们 不 知道 这 个 视图 的 具体 定义 ， 
仅 从 结果 来 推测 ， 这 个 查询 有 可 能 是 做 了 多 表 关 联 Goin) AW, FFA 
没有 合适 的 索引 ， 可 能 是 其 中 一 个 子 查询 创建 了 临时 表 ， 然 后 和 其 他 表 








做 联合 碍 询 。 而 用 于 保存 子 查 询 结果 的 临时 表 没 有 索引 ， 如 此 大 致 可 以 
解释 这 样 的 结果 。 


使 用 这 个 技术 的 时 候 ， 要 注意 SHOW ”STATUS 本身 也 会 创建 一 个 临时 
表 ， 而 且 也 会 通过 句柄 操作 访问 此 临时 表 ， 这 会 影响 到 SHOW ”STATUS 结 
果 中 对 应 的 数字 ， 而 且 不 同 的 版 本 可 能 行为 也 不 尽 相 同 。 比 较 前 面 通过 
SHOW ”PROF1LES 获 得 的 查询 的 执行 计划 的 结果 来 看 ， 至 少 临 时 表 的 计数 
器 多 加 了 2。 





你 可 能 会 注意 到 通过 EXPLA1N 查 看 查询 的 执行 计划 也 可 以 获得 大 部 
分 相同 的 信息 ， 但 EXPLAIN 是 通过 估计 得 到 的 结果 ， 而 通过 计数 器 则 是 
实际 的 测量 结果 。 例 如 ，EXPLAIN 无 法 告诉 你 临时 表 是 否 是 磁盘 表 ， 这 
和 内 存 临 时 表 的 性 能 差别 是 很 大 的 。 附 录 D 包 含 更 多 关于 EXPLAIN 的 内 


容 。 
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那么 针对 上 面 这 样 的 查询 语句 ，Percona Server 对 慢 查 询 日 志 做 了 哪 
些 改进 ? 下 面 是 “使 用 SHOW PROF1LE” 一 节 演 示 过 的 相同 的 查询 执行 后 抓 
取 到 的 结果 : 


# Time: 110905 17:03:18 

# User@Host: root[root] @ localhost [127.0.0.1] 

# Thread_id: 7 Schema: sakila Last_errno: 0 Killed: 0 

# Query_time: 0.166872 Lock_time: 0.000552 Rows_sent: 997 Row 
Rows_affected: © Rows_read: 997 


# Bytes_sent: 216528 Tmp_tables: 3 Tmp_disk_tables: 2 Tmp_tab 





# InnoDB_trx_id: 191E 

# QC_Hit: No Full_scan: Yes Full_join: No Tmp_table: Yes Tmp_ 
# Filesort: Yes Filesort_on_disk: No Merge_passes: 0 

# InnoDB_IO_r_ops: 0 InnoDB_IO_r_bytes: 0 InnoDB_IO_r_wait: 0 
# InnoDB_rec_lock_wait: 0.000000 InnoDB_queue_wait: 0.000000 
# InnoDB_pages_distinct: 20 

# PROFILE_VALUES ... Copying to tmp table: 0.090623... [omitt 


SET timestamp=1315256598; 


SELECT * FROM sakila.nicer_but_slower_film_list; 


从 这 里 看 到 查询 确实 一 共 创建 了 三 个 临时 表 ， 其 中 两 个 是 磁盘 临时 
表 。 而 SHOW PROFILE 看 起 来 则 隐藏 了 信息 (可 能 是 由 于 服务 器 执行 查询 
的 方式 有 不 一 样 的 地 方 造成 的 ) 。 这 里 为 了 方便 阅读 ， 对 结果 做 了 简 
化 。 但 最 后 对 该 查询 执行 SHOW PROFILE 的 数据 也 会 写 入 到 日 志 中 ， 所 以 
在 Percona Server 中 甚至 可 以 记录 SHOW PROFILE 的 细节 信息 。 














另外 也 可 以 看 到 ， 慢 得 询 日 志 中 详细 记录 的 条 目 包 含 了 SHOW 
PROFILE 和 SHOW STATUS 所 有 的 输出 ， 并 且 还 有 更 多 的 信息 。 上 所 以 通过 pr 
query-digest 发 现 “ 坏 ”查询 后 ， 在 慢 查 询 日 志 中 可 以 获得 足够 有 用 的 信 
恩 。 碍 看 pt-query-digest 的 报告 时 ， 其 标题 部 分 一 般 会 有 如 下 输出 : 











# Query 1:0 QPS, Ox concurrency, ID OxEE758CS5EQD7EADEE at byt 


可 以 通过 这 里 的 字 节 偏 移 值 (3214) 直接 跳 转 到 日 志 的 对 应 部 分 ， 
例如 用 下 面 这 样 的 命令 即 可 : 


tail -c +3214 /path/to/query.log | head -n100 


这 样 就 可 以 直接 跳 转 到 细 市 部 分 了 。 另 外 ，pt-query-digest 能 够 处 理 





Percona Server 在 慢 查 询 日 志 中 增加 的 所 有 和 键 值 对 ， 并 且 会 自动 在 报告 中 
打印 更 多 的 细节 信息 。 


使 用 Performance Schema 


Using the Performance Schema 


在 本 书写 作 之 际 ， 在 MySQL 5.5 中 新 增 的 Performance Schema 表 还 
不 支持 查询 级 别 的 剖析 信息 。Performance Schema 还 是 非常 新 的 特性 ， 
并 且 还 在 快速 开发 中 ， 未 来 的 版 本 中 将 会 包含 更 多 的 功能 。 尺 管 如 此 ， 
MySQL 5.5 的 初始 版 本 已 经 包含 了 很 多 有 趣 的 信息 。 例 如 ， 下 面 的 查询 
显示 了 系统 中 等 待 的 主要 原因 : 





mysql> SELECT event_name, count_star, sum_timer_wait 
-> FROM events_waits_summary global by event name 
-> ORDER BY sum_timer_wait DESC LIMIT 5; 


+---------------------------------------- +------------ +------------------ 十 
l event_name | count_star | sum timer wait | 
---------------------------------------- +------------+------------------+ 
| innodb_log file | 205438 | 2552133070220355 | 
| Query_cache::COND cache status_changed | 8405302 | 2259497326493034 | 
| Query _cache::structure guard mutex | 55769435 | 361568224932147 | 
| innodb data file | 62423 | 347302500600411 | 
| dict_table stats | 15330162 | 53005067680923 l 
+----------------------------------------+------------ +------------------ 


目前 还 有 一 些 限 制 ， 使 得 Performance Schema 还 无 法 被 当 作 一 个 通 
用 的 剖析 工具 。 首 先 ， 它 还 无 法 提供 得 询 执行 阶段 的 细节 信息 和 计时 信 
轧 ， 而 前 面 提 供 的 很 多 现 有 的 工具 都 已 经 能 做 到 这 些 了 。 其 次 ， 还 没有 
经 过 长 时 间 、 大 规模 使 用 的 验证 ， 并 且 自 身 的 开销 也 还 比较 大 ， 多 数 比 
较 保 守 的 用 户 还 对 此 持 有 疑问 (不 过 有 理由 相信 这 些 问题 很 快 都 会 被 修 
复 的 ) 。 








最 后 ， 对 大 多 数 用 户 来 说 ， 直 接 通 过 Performance Schema 的 裸 数 据 
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性 ， 主 要 是 为 了 测量 当 为 提升 服务 器 性 能 而 修改 MYSQL 源 代 码 时 使 

用 ， 包 括 等 待 和 互 斥 锁 。MySQL ”5.5 中 的 特性 对 于 高 级 用 户 也 很 有 价 
值 ， 而 不 仅仅 为 开发 者 使 用 ， 但 还 是 需要 开发 一 些 前 端 工具 以 方便 用 户 
使 用 和 分 析 结 果 。 目 前 就 只 能 通过 写 一 些 复杂 的 语句 去 查询 大 量 的 元 数 
据 表 的 各 种 列 。 这 在 使 用 过 程 中 需要 花 很 多 时 间 去 熟悉 和 理解 。 


























在 MySQL 5.6 或 者 以 后 的 版 本 中 ，Performance Schema 将 会 包含 更 
多 的 功能 ， 再 加 上 一 些 方 便 使 用 的 工具 ， 这 样 就 更 “ 爽 ” 了 。 而 且 Oracle 
将 其 实现 成 表 的 形式 ， 可 以 通过 SQL 访问 ， 这 样 用 户 可 以 方便 地 访问 有 
用 的 数据 。 但 其 目前 还 无 法 立即 取代 慢 查 询 日 志 等 其 他 工具 用 于 服务 器 
和 查询 的 性 能 优化 。 
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够 将 潜在 的 问题 显示 出 来 ， 但 最 终 的 解决 方案 还 需要 用 户 来 决定 (尽管 
报告 可 能 会 给 出 建议 ) 。 优 化 查询 时 ， 用 户 需 要 对 服务 器 如 何 执 行 查 询 
有 较 深 的 了 解 。 弃 析 报 告 能 够 尽 可 能 多 地 收集 需要 的 信息 、 给 出 诊断 问 
题 的 正确 方向 ， 以 及 为 其 他 诸如 EXPLAIN 等 工具 提供 基础 信息 。 这 里 


只 是 先 引出 话题 ， 后 续 章 节 将 继续 讨论 。 





尽管 一 个 拥有 完整 测量 信息 的 剖析 报告 可 以 让 事情 变 得 简单 ， 但 现 
有 系统 通常 都 没有 完美 的 测量 支持 。 从 前 面 的 例子 来 说 ， 我 们 虽然 推断 
出 是 临时 表 和 没有 索引 的 读 导 致 查询 的 响应 时 间 过 长 ， 但 却 没有 明确 的 
证 据 。 因 为 无 法 测量 所 有 需要 的 信息 ， 或 者 测量 的 范围 不 正确 ， 有 些 问 
题 就 很 难 解决 。 例 如 ， 可 能 没有 集中 在 需要 优化 的 地 方 测量 ， 而 是 测量 
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询 开 始 后 的 数据 。 


也 有 其 他 的 可 能 性 。 设 想 一 下 正在 分 析 慢 查询 日 志 ， 发 现 了 一 个 很 
简单 的 查询 正常 情况 下 都 非常 快 ， 却 有 几 次 非常 不 合理 地 执行 了 很 长 时 
间 。 手 工 重 新 执行 一 过， 发 现 也 非常 快 ， 然 后 使 用 EXPLAIN 查 询 其 执 
行 计 划 ， 也 正确 地 使 用 了 索引 。 然 后 党 We 
值 ， 以 排除 缓存 命中 的 可 能 ， 也 没有 发 现 有 什么 问题 ， 这 可 能 是 什么 原 
因 呢 ? 

















如 果 使 用 官方 版 本 的 MySQL， 慢 查询 日 志 中 没有 执行 计划 或 者 详 
细 的 时 间 信 息 ， 对 于 侦 尔 记录 到 的 这 儿 次 查询 异常 慢 的 问题 ， 很 难 知 道 
其 原因 在 哪里 ， 因 为 信息 有 限 。 可 能 是 系统 中 有 其 他 东西 消耗 了 资源 ， 
比如 正在 备份 ， 也 可 能 是 菜 种 类 型 的 锁 或 者 争 用 阻 具 了 查询 的 进度 。 这 
种 间歇 性 的 问题 将 在 下 一 节 详 细 讨论 。 
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问题 只 在 没有 注意 到 的 时 候 才 发 生 ， 而 且 无 法 确认 如 何 重 现 ， 诊 断 这 样 
的 问题 往往 要 花费 很 多 时 间 ， 有 时 候 其 全 需要 好 几 个 月 。 在 这 个 过 程 
中 ， 有 些 人 会 尝试 以 不 断 试 错 的 方式 来 诊断 ， 有 时 候 其 至 会 想 要 通过 随 
机 地 改变 一 些 服务 器 的 设置 来 傍 兽 地 找到 问题 。 




















尽量 不 要 使 用 试 错 的 方式 来 解决 问题 。 这 种 方式 有 很 大 的 风险 ， 
为 结果 可 能 变 得 更 坏 。 这 也 是 一 种 令 人 泪 形 且 低 效 的 方式 。 如 果 一 时 无 
法 定位 问题 ， 可 能 是 测量 的 方式 不 正确 ， 或 者 测量 的 点 选择 有 误 ， 或 者 
使 用 的 工具 不 合适 (也 可 能 是 缺少 现成 的 工具 ， 我 们 已 经 开发 过 工具 来 
解决 各 个 系统 不 透明 导致 的 问题 ， 包 括 从 操作 系统 到 MySQL 都 有 ) 。 








为 了 演示 为 什么 要 尽量 避免 试 错 的 诊断 方式 ， 下 面 列 举 了 我 们 认为 
己 经 解决 的 一 些 间 欣 性 数据 库 性 能 问题 的 实际 案例 : 


。 应 用 通过 curl 从 一 个 运行 得 很 慢 的 外 部 服务 来 获取 汇率 报价 的 数 
据 。 

memcached 绥 存 中 的 一 些 重要 条 目 过 期 ， 导 致 大 量 请 求 落 到 MySQL 
以 重新 生成 缓存 条 目 。 

DNS 碍 询 倘 尔 会 有 超时 现象 。 

可 能 是 由 于 互 斥 锁 争 用 ， 或 者 内 部 删除 得 询 缓存 的 算法 效率 太 低 的 
缘故 ，MYySQL 的 查询 缓存 有 时 候 会 导致 服务 有 短暂 的 停顿 。 

当 并 发 度 超 过 某 个 阔 值 时 ，InnoDB 的 扩展 性 限制 导致 查询 计划 的 
优化 需要 很 长 的 时 间 。 

















从 上 面 可 以 看 到 ， 有 些 问 题 确 实 是 数据 库 的 原因 ， 也 有 些 不 是 。 只 
有 在 问题 发 生 的 地 方 通过 观察 资源 的 使 用 情况 ， 并 尽 可 能 地 测量 出 数 
据 ， 才 能 避免 在 没有 问题 的 地 方 耗费 精力 。 


下 面 不 再 多 费 口 舌 说 明 试 错 的 问题 ， 而 是 给 出 我 们 解决 间 葡 性 问题 
的 方法 和 工具 ， 这 才 是 “王道 ”。 


3.4.1 单条 查询 问题 还 是 服务 器 问题 


发 现 问 题 的 蛛丝马迹 了 吗 ? 如 果 有 ， 则 首先 要 确认 这 是 单条 得 询 的 
问题 ， 还 是 服务 器 的 问题 。 这 将 为 解决 问题 指出 正确 的 方向 。 如 果 服 务 
器 上 所 有 的 程序 都 突然 变 慢 ， 叉 突然 都 变 好 ， 每 一 条 碍 询 也 都 变 慢 了 ， 
那么 慢 人 查询 可 能 束 不 一 定 是 原因 ， 而 是 由 于 其 他 问题 导致 的 结果 。 反 过 
来 次， 如 果 服 务 器 整体 运行 没有 问题 ， 只 有 茶 条 碍 询 偶尔 变 慢 ， 就 需要 
将 注意 力 放 到 这 条 特定 的 查询 上 面 。 























服务 器 的 问题 非常 常见 。 在 过 去 几 年 ， 人 硬件 的 能 力 越 来 越 强 ， 配 置 
16 核 或 者 更 多 CPU 的 服务 器 成 了 标 配 ，MySQL 在 SMP 架 构 的 机 器 上 的 
可 扩展 性 限制 也 就 越 来 越 显 露出 来 。 尤 其 是 较 老 的 版 本 ， 其 问题 更 加 严 
重 ， 而 目前 生产 环境 中 的 老 版 本 还 非常 多 。 新 版 本 MySQL 依 然 也 还 有 
一 些 扩展 性 限制 ， 但 相 比 老 版 本 已 经 没有 那么 严重 ， 而 且 出 现 的 频率 相 
对 小 很 多 ， 只 是 偶尔 能 碰 到 。 这 是 好 消息 ， 也 是 坏 消息 : 好 消息 是 很 少 
会 碰 到 这 个 问题 ， 坏 消息 则 是 一 旦 碰 到 ， 则 需要 对 MySQL 内 部 机 制 更 
加 了 解 才 能 诊断 出 来 。 当 然 ， 这 也 意味 着 很 多 问题 可 以 通过 升级 到 
MySQL 新 版 本 来 解决 03。 














那么 如 何 判断 是 单条 查询 问题 还 是 服务 器 问题 呢 ? 如 果 问 题 不 停 地 


周期 性 出 现 ， 那 么 可 以 在 某 次 活动 中 观察 到 ; 或 者 整 夜 运行 脚本 收集 数 
据 ， 第 二 天 来 分 析 结 果 。 大 多 数 情 况 下 都 可 以 通过 三 种 搁 术 来 解决 ， 下 
面 将 一 一 道 来 。 





使 用 SHOW GLOBAL STATUS 


这 个 方法 实际 上 就 是 以 较 高 的 频率 比如 一 秒 执行 一 次 SHOW GLOBAL 
STATUS 命令 捕获 数据 ， 问 题 出 现时 ， 则 可 以 通过 某 些 计 数 右 《比如 
Threads_running、Threads_connected、Questions 和 Queries) 的 “ 尖 
刺 ? 或 者 “凹陷 ?来 发 现 。 这 个 方法 比较 简单 ， 所 有 人 都 可 以 使 用 《〈 不 需 
要 特殊 的 权限 ) ， 对 服务 器 的 影响 也 很 小 ， 所 以 是 一 个 花费 时 间 不 多 却 
能 很 好 地 了 解 问题 的 好 方法 。 下 面 是 示例 命令 及 其 输出 : 





$ mysqladmin ext -i1 | awk ' 
/Queries/ {q=$4-qp; qp=$4} 
/Threads_connected/{tc=$4} 
/Threads_running/{printf "%5d %5d %5d\n", q, tc, $4}' 
2147483647 136 7 
798 136 
767 134 
828 134 
683 134 
784 135 


N nN nN nN oO WN 


614 134 
108 134 24 
187 134 31 


179 134 28 
1179 134 
1151 134 
1240 135 


NO oN NN 


1000 135 


这 个 命令 每 秒 捕获 一 次 SHOW GLOBAL STATUS 的 数据 ， 输 出 给 awk 计 
算 并 输出 每 秒 的 查询 数 、Threads_connected 和 Threads_running (表示 
当前 正在 执行 查询 的 线程 数 ) 。 这 三 个 数据 的 趋势 对 于 服务 器 级 别 侦 尔 
停顿 的 敏感 性 很 高 。 一 般 发 生 此 类 问题 时 ， 根 据 原因 的 不 同和 应 用 连接 
数据 库 方 式 的 不 同 ， 每 秒 的 得 询 数 一 般 会 下 跌 ， 而 其 他 两 个 则 至 少 有 一 
个 会 出 现 尖 刺 。 在 这 个 例子 中 ， 应 用 使 用 了 连接 池 ， 所 以 
Threads_connected 没 有 变化 。 但 正在 执行 查询 的 线程 数 明 显 上 升 ， 同 
时 每 秒 的 得 询 数 相 比 正 常数 据 有 严重 的 下 跌 。 








如 何 解 析 这 个 现象 呢 ? 赁 猜测 有 一 定 的 风险 。 但 在 实践 中 有 两 个 原 
因 的 可 能 性 比较 大 。 其 中 之 一 是 服务 器 内 部 倍 到 了 某 种 瓶 须 ， 导 致 新 得 
询 在 开始 执行 前 因为 需要 获取 老 得 询 正 在 等 待 的 锁 而 造成 堆积 。 这 一 类 
的 锁 一 般 也 会 对 应 用 服务 器 造成 后 端 压 力 ， 使 得 应 用 服务 器 也 出 现 排 队 
问题 。 男 外 一 个 常见 的 原因 是 服务 区 突然 遇 到 了 大 量 查 询 请 求 的 冲击 ， 
比如 前 端的 memcached 突 然 失 效 导 致 的 查询 风暴 。 














这 个 命令 每 秒 输出 一 行 数据 ， 可 以 运行 儿 个 小 时 或 者 几 天 ， 然 后 将 
结果 绘制 成 图 形 ， 这 样 就 可 以 方便 地 发 现 是 否 有 趋势 的 突变 。 如 果 问 题 
确实 古 间歇 性 的 ， 发 生 的 频率 又 较 低 ， 也 可 以 根据 需要 尽 可 能 长 时 间 地 
运行 此 命令 ， 直 到 发 现 问 题 再 回头 来 看 输出 结果 。 大 多 数 情 况 下 ， 通 过 
和 输出 结果 都 可 以 更 明确 地 定位 问题 。 





使 用 SHOW PROCESSLIST 





这 个 方法 是 通过 不 停 地 捕获 SHOW PROCESSL1ST 的 输出 ， 来 观察 是 否 
有 大 量 线程 处 于 不 正常 的 状态 或 者 有 其 他 不 正常 的 特征 。 例 如 查询 很 少 
会 长 时 间 处 于 “statistics” 状 态 ， 这 个 状态 一 般 是 指 服务 器 在 查询 优化 
阶段 如 何 确定 表 关 联 的 顺序 一 一 通常 都 是 非常 快 的 。 另 外 ， 也 很 少 会 见 
到 大 量 线 程 报告 当前 连接 用 户 是 “未 经 验证 的 用 户 (Unauthenticated 























user) ”， 这 只 是 在 连接 握手 的 中 间 过 程 中 的 状态 ， 当 客户 并 等 待 输 
入 用 于 登录 的 用 户 信 息 的 时 候 才 会 出 现 。 


使 用 SHOW PROCESSLIST 命 令 时 ， 在 尾部 加 上 \G 可 以 垂直 的 方式 输出 
结果 ， 这 很 有 用 ， 因 为 这 样 会 将 每 一 行 记录 的 每 一 列 都 单独 输出 为 一 
行 ， 这 样 可 以 方便 地 使 用 sortluniq|sort 一 类 的 命令 来 计算 某 个 列 值 出 现 
的 次 数 : 


$ mysql -e 'SHOW PROCESSLIST\G' | grep State: | sort | unig - 
744 State: 
67 State: Sending data 
36 State: freeing items 

State: NULL 

State: end 

State: Updating 

State: cleaning up 

State: update 


State: Sorting result 


e e N A BR Q O 


State: logging slow query 





如 果 要 查看 不 同 的 列 ， 只 需要 修改 grep 的 模式 即 可 。 在 大 多 数 案 例 
中 ，State 列 都 非常 有 用 。 从 这 个 例子 的 输出 中 可 以 看 到 ， 有 很 多 线程 
处 于 查询 执行 的 结束 部 分 的 状态 ， 包 括 “freeing 
items”, “end”, “cleaning up” 和 “logging slow query”。 事 实 上 ， 在 案例 中 
的 这 台 服 务 器 上 ， 同 样 模式 或 类 似 的 输出 采样 出 现 了 很 多 次 。 大 量 的 线 
程 处 于 “freeing items” 状 态 是 出 现 了 大 量 有 问题 查询 的 很 明显 的 特征 和 指 
未 














用 这 种 技术 查找 问题 ， 上 面 的 命令 行 不 是 唯一 的 方法 。 如 果 
MySQL 服 务 器 的 版 本 较 新 ， 也 可 以 直接 查询 INFORMATI1ON_SCHEMA 中 的 
PROCESSL1ST 表 ; 或 者 使 用 innotop 工 具 以 较 高 的 频率 刷新 ， 以 观察 屏幕 
上 出 现 的 不 正常 查询 堆积 。 上 面 演 示 的 这 个 例子 是 由 于 InnoDB 内 部 的 
争 用 和 脏 块 刷新 所 导致 ， 但 有 时 候 原 因 可 能 比 这 个 要 简单 得 多 。 一 个 经 
典 的 例子 是 很 多 查询 处 于 “Locked” 状 态 ， 这 是 MyISAM 的 一 个 典型 问 
题 ， 它 的 表 级 别 锁定 ， 在 写 请 求 较 多 时 ， 可 能 迅速 导致 服务 器 级 别 的 线 
程 堆积 。 

















使 用 查询 日 志 








如 果 要 通过 查询 日 志 友 现 问 题 ， 需 要 开局 慢 但 询 日 志 并 在 全 局 级 别 
设置 1ong_query_time 为 0， 并 且 要 确认 所 有 的 连接 都 采用 了 新 的 设置 。 
这 可 能 需要 重 置 所 有 连接 以 使 新 的 全 局 设置 生效 ;或 者 使 用 Percona 
Server 的 一 个 特性 ， 可 以 在 不 断 开 现 有 连接 的 情况 下 动态 地 使 设置 强制 
E 











如 果 因 为 条 些 原因 ， 不 能 设置 慢 查 询 日 志 记 录 所 有 的 查询 ， 也 可 以 
通过 tcpdump 和 ptrquery-digest 工 具 来 模拟 符 代 。 要 注意 找到 吞吐 量 突然 








下 降 时 间 段 的 日 志 。 碍 询 是 在 完成 阶段 才 写 入 到 慢 得 询 日 志 的 ， 所 以 推 
积 会 造成 大 量 碍 询 处 于 完成 阶段 ， 直 到 阻塞 其 他 碍 询 的 资源 占用 者 释放 
资源 后 ， 其 他 的 查询 才能 执行 完成 。 这 种 行为 特征 的 一 个 好 处 是 ， 当 遇 
到 吞吐 量 突然 下 降 时 ， 可 以 归咎 于 吞吐 量 下 降 后 完成 的 第 一 个 查询 《有 
时 候 也 不 一 定 是 第 一 个 查询 。 当 茶 些 查询 被 阻塞 时 ， 其 他 碍 询 可 以 不 受 
影响 继续 运行 ， 所 以 不 能 完全 依赖 这 个 经 验 ) 。 








再 重申 一 次 ， 好 的 工具 可 以 帮助 诊断 这 类 问题 ， 否 则 要 人 人 工 去 几 百 
GB 的 查询 日 志 中 找 原因 。 下 面 的 例子 只 有 一 行 代码 ， 却 可 以 根据 
MySQL 每 秒 将 当前 时 间 写 入 日 志 中 的 模式 统计 每 秒 的 查询 数量 : 





$ awk '/A# Time:/{print$3,$4, c;c=0}/^# User/{c++}' slow-query 
080913 21:52:17 51 
080913 21:52:18 29 
080913 21:52:19 34 
080913 21:52:20 33 
080913 21:52:21 38 
080913 21:52:22 15 
080913 21:52:23 47 
080913 21:52:24 96 
080913 21:52:25 6 
080913 21:52:26 66 
080913 21:52:27 37 
080913 21:52:28 59 








从 上 面 的 输出 可 以 看 到 有 吞吐 量 突然 下 降 的 情况 发 生 ， 而 且 在 下 降 
之 前 还 有 一 个 突然 的 高 峰 ， 仅 从 这 个 输出 而 不 去 得 询 当时 的 详细 信息 很 
难 确定 发 生 了 什么 ， 但 应 该 可 以 六 这 个 突然 的 高 峰 和 随后 的 下 降 一 定 有 








关联 。 不 管 怎 么 说 ， 这 种 现象 都 很 奇怪 ， 值 得 去 日 志 中 挖掘 该 时 间 段 的 
详细 信息 《实际 上 通过 日 志 的 详细 信息 ， 可 以 发 现 突然 的 高 峰 时 段 有 很 
多 连接 被 断 开 的 现象 ， 可 能 是 有 一 台 应 用 服务 器 重启 导致 的 。 所 以 不 是 
所 有 的 问题 都 是 MySQL 的 问题 ) 。 


理解 发 现 的 问题 (Making sense of the findings ) 





可 视 化 的 数据 最 具有 说 服 力 。 上 面 只 演示 了 很 少 的 几 个 例子 ， 但 在 
实际 情况 中 ， 利 用 上 面 的 工具 诊断 时 可 能 产生 大 量 的 输出 结 末 。 可 以 选 
择 用 gnuplot 或 R， 或 者 其 他 绘图 工具 将 结果 绘制 成 图 形 。 这 些 绘图 工具 
速度 很 快 ， 比 电子 表格 要 快 得 多 ， 而 且 可 以 对 图 上 的 一 些 异常 的 地 方 进 
行 缩放 ， 这 比 在 终端 中 通过 滚动 条 翻 看 文字 要 好 用 得 多 ， 除 非 你 是 “ 黑 
ig El” FE RAA, 








我 们 建议 诊断 问题 时 先 使 用 前 两 种 方法 : SHOW STATUS 和 SHOW 
PROCESSL1ST。 这 两 种 方法 的 开销 很 低 ， 而 且 可 以 通过 简单 的 shell 脚 本 
或 者 反复 执行 的 查询 来 交互 式 地 收集 数据 。 分 析 慢 查询 日 志 则 相对 要 困 
难 一 些 ， 经 常会 发 现 一 些 蛛丝马迹 ， 但 仔细 去 研究 时 可 能 又 消失 了 。 这 
样 我 们 很 容易 会 认为 其 实 没 有 问题 。 





发 现 输 出 的 图 形 寞 常 意味 厦 什 么 ? 通 癌 来 说 可 能 是 查询 在 茶 个 地 方 
排队 了 ， 或 者 东 种 得 询 的 量 突然 峰 升 了 。 接 下 来 的 任务 加 是 找 出 这 些 原 
因 。 


3.4.2 ”捕获 诊断 数据 





Capturing Diagnostic Data 








SCH LTA) aE a) ei, BOR ee He TA, TAN A ze i 
题 出 现时 的 数据 。 虽 然 这样 会 收集 大 量 的 诊断 数据 ， 但 总 比 真 正 能 够 诊 
晰 问题 的 数据 没有 被 收集 到 的 情况 要 好 。 





在 开始 之 前 ， 需 要 搞 清楚 两 件 事 ; 


1. 一 个 可 靠 且 实时 的 “触发 右 "， 也 吉 是 能 区 分 什么 时 候 问题 出 现 的 方 
ike 
2. 一 个 收集 诊断 数据 的 工具 。 


1 WT HAL AC a 


fl AC as Es E. RE FE o SY ee FR A AAA 
常见 的 问题 可 能 导致 无 法 达到 预期 的 结果 : 误 报 (false positive) 或 者 
漏 检 (false negative) 。 误 报 是 指 收集 了 很 多 诊断 数据 ， 但 期 间 其 实 没 
ARMA, RA HIRST, MAS AVE. TAR WU Fa FE i ee h 
时 没有 捕获 到 数据 ， 错 失 了 机 会 ， 一 样 地 浪费 时 间 。 所 以 在 开始 收集 数 
据 前 多 花 一 点 时 间 来 确认 触发 器 能 够 真正 地 识别 问题 是 划算 的 。 











那么 好 的 触发 器 的 标准 是 什么 呢 ? 像 前 面 的 例子 展示 
的 ，Threads_running 的 趋势 在 出 现 问题 时 会 比较 敏感 ， 而 没有 问题 时 
则 比较 平稳 。 另 外 SHOW PROCESSL1ST 中 线程 的 异常 状态 尖峰 也 是 个 不 错 
的 指标 。 当 然 除 此 之 外 还 有 很 多 的 方法 ， 包 括 SHOW INNODB STATUS 的 特 
定 输出 、 服 务 器 的 平均 负载 尖峰 等 。 关 键 是 找到 一 些 能 和 正常 时 的 阔 值 
进行 比较 的 指标 。 通 常情 况 下 这 是 一 个 计数 ， 比 如 正在 运行 的 线程 的 数 
量 、 处 于 “freeing items” 状 态 的 线程 的 数量 等 。 当 要 计算 线程 某 个 状态 的 











数量 时 ，grep 的 -c 选 项 非常 有 用 : 


$ mysql -e 'SHOW PROCESSLIST\G' | grep -c "State: freeing item 
36 


选择 一 个 合适 的 阐 值 很 重要 ， 既 要 足够 高 ， 以 确保 在 正常 时 不 会 被 
触发 ， 又 不 能 太 高 ， 要 确保 问题 发 生 时 不 会 错过 。 另 外 要 注意 ， 要 在 问 
题 开 始 时 束 捕 获 数 据 ， 就 更 不 能 将 闪 值 设置 得 太 高 。 问 题 持 续 上 升 的 趋 
势 一 般 会 导致 更 多 的 问题 发 生 ， 如 果 在 问题 导致 系统 快要 骨 误 时 才 开 始 
捕获 数据 ， 就 很 难 诊断 到 最 初 的 根本 原因 。 如 果 可 能 ， 在 问题 还 是 涓涓 
细 流 的 时 候 就 要 开始 收集 数据 ， 而 不 要 等 到 波涛 测 涌 才 开 始 。 举 个 例 
子 ，Threads_connected 偶 尔 出 现 非 党 高 的 尖峰 值 ， 在 几 分 钟 时 间 内 会 
从 100 冲 到 5000 或 者 更 高 ， 所 以 设置 闪 值 为 4999 也 可 以 捕获 到 问题 ,但 
为 什么 非 要 等 到 这 么 高 的 时 候 才 收集 数据 呢 ? 如 果 在 正常 时 该 值 一 般 不 
超过 150， 将 阔 值 设置 为 200 或 者 300 会 更 好 。 

















回 到 前 面 天 于 Threads_running 的 例子 ， 正 常情 况 下 的 并 发 度 不 起 
过 10。 但 是 阐 值 设置 为 10 并 不 是 一 个 好 注意 ， 很 可 能 会 导致 很 多 误 报 。 
即使 设置 为 15 也 不 够 ,可 能 还 是 会 有 很 多 正常 的 波动 会 到 这 个 范围 。 当 
并 发 运行 线程 到 15 的 时 候 可 能 也 会 有 少量 堆积 的 情况 ， 但 可 能 还 没 到 问 
题 的 引爆 点 。 但 也 应 该 在 糟糕 到 一 眼 就 能 看 出 问题 前 就 清晰 地 识别 出 
来 ， 对 于 这 个 例子 ， 我 们 建议 赋值 可 以 设置 为 20。 














我 们 当然 希望 在 问题 确实 发 生 时 能 捕获 到 数据 ， 但 有 时 候 也 需要 稍 
微 等 待 一 下 以 确保 不 是 误 报 或 者 短暂 的 尖峰 。 所 以 ， 最 后 的 触发 条 件 可 
以 这 样 设置 每 秒 监 控 状 态 值 ， 如 果 Threads_running 连 续 5 秒 超过 20， 
就 开始 收集 诊断 数据 《顺便 说 一 句 ， 我 们 的 例子 中 问题 只 持续 了 3 秒 就 
消失 了 ， 这 是 为 了 使 例子 简单 而 设置 的 。3 秒 的 故障 不 容易 诊断 ， 而 我 


们 碰 到 过 的 大 部 分 问题 持续 时 间 孝 会 更 长 一 些 ) 。 


所 以 我 们 需要 利用 一 种 工具 来 监控 服务 器 ， 当 达到 触发 条 件 时 能 收 
集 数据 。 当 然 可 以 自己 编写 脚本 来 实现 ， 不 过 不 用 那么 及 烦 ，Percona 
Toolkit 中 的 pt-stalk 就 是 为 这 种 情况 设计 的 。 这 个 工具 有 很 多 有 用 的 特 
性 ， 只 要 碰 到 过 类 似 问 题 就 会 明白 这 些 特性 的 必要 性 。 例 如 ， 它 会 监控 
磁盘 的 可 用 空间 ， 所 以 不 会 因为 收集 太 多 的 数据 将 空间 耗 尽 而 导致 服务 
器 月 演 。 如 果 之 前 碰 到 过 这 样 的 情况 ， 你 就 会 理解 这 一 点 了 。 











pt-stalk 的 用 法 很 简单 。 可 以 配置 需要 监控 的 变量 、 阐 值 、 检 杜 的 频 
率 等 。 还 支持 一 些 比 实际 需要 更 多 的 花哨 特性 ， 但 在 这 个 例子 中 有 这 些 
己 经 足够 了。 在 使 用 之 前 建议 先 阅 读 附带 的 文档 。pt-stalk 还 依赖 于 男 外 
一 个 工具 执行 真正 的 收集 工作 ， 接 下 来 会 讨论 。 


需要 收集 什么 样 的 数据 


现在 已 经 确定 了 诊断 触发 器 ， 可 以 开始 启动 一 些 进 程 来 收集 数据 
了 。 但 需要 收集 什么 样 的 数据 呢 ?” 就 像 前 面 说 的 ， 答 案 是 尽 可 能 收集 所 
有 能 收集 的 数据 ， 但 只 在 需要 的 时 间 段 内 收集 。 包 括 系统 的 状态 、CPU 
利用 率 、 磁 盘 使 用 率 和 可 用 空间 、ps 的 输出 采样 、 内 存 利用 率 ， 以 及 可 
以 从 MySQL 获 得 的 信息 ， 如 SHOW STATUS, SHOW PROCESSLIST#ISHOW 
INNODB STATUS。 这 些 在 诊断 问题 时 都 需要 用 到 (可 能 还 会 有 更 多 ) 。 


执行 时 间 包 括 用 于 工作 的 时 间 和 等 待 的 时 间 。 当 一 个 未 知 问题 及 生 
时 ， 一 般 来 说 有 两 种 可 能 : 服务 器 需要 做 大 量 的 工作 ， 从 而 导致 大 量 消 
耗 CPU;， 或 者 在 等 竺 茶 些 资源 被 释放 。 所 以 需要 用 不 同 的 方法 收集 诊断 
数据 ， 来 确认 是 何 种 原因 : 剖析 报告 用 于 确认 是 否 有 太 多 工作 ， 而 等 街 











分 析 则 用 于 确认 是 否 存在 大 量 等 待 。 如 果 是 未 知 的 问题 ， 怎 么 知道 将 精 
力 集中 在 哪个 方面 呢 ? 没有 更 好 的 办 法 ， 所 以 只 能 两 种 数据 都 尽量 收 
集 。 





在 GNU/Linux 平 台 ， 可 用 于 服务 右 内 部 诊断 的 一 个 重要 工具 
是 oprofile。 后 面 会 展示 一 些 例子 。 也 可 以 使 用 strace 削 析 服 务 器 的 系统 
调用 ， 但 在 生产 环境 中 使 用 它 有 一 定 的 风险 。 后 面 还 会 继续 讨论 它 。 如 
果 要 齐 析 查询 ， 可 以 使 用 tcpdump。 大 多 数 MySQL 版 本 无 法 方便 地 打开 
和 关闭 慢 查 询 日 志 ， 此 时 可 以 通过 监听 TCP 流 量 来 模拟 。 另 外 ， 网 络 流 
量 在 其 他 一 些 分 析 中 也 非常 有 用 。 








对 于 等 待 分 析 ， 常 用 的 方法 是 GDB 的 堆栈 跟踪 (32。MySQL 内 的 线 
程 如 果 卡 在 一 个 特定 的 地 方 很 长 时 间 ， 往 往 都 有 相同 的 堆栈 跟踪 信息 。 
跟踪 的 过 程 是 先 启动 gdb， 然 后 附加 (attach〉 到 mysqld 进 程 ， 将 所 有 线 
程 的 堆栈 都 转 储 出 来 。 然 后 可 以 利用 一 些 简 短 的 脚本 将 类 似 的 堆栈 跟踪 
言 轧 做 汇总 ， 再 利用 sortluniqlsort 的 “魔法 ?排序 出 总 计 最 多 的 堆栈 信 
息 。 稍 后 将 演示 如 何 用 pt-pmp 工 具 来 完成 这 个 工作 。 














也 可 以 使 用 SHOW PROCESSLIST 和 SHOW INNODB STATUS 的 快照 信息 观 
察 线程 和 事务 的 状态 来 进行 等 竺 分析 。 这 些 方法 都 不 完美 ， 但 实践 证 明 
还 是 非常 有 帮助 的 。 


收集 所 有 的 数据 听 起 来 工作 量 很 大 。 或 许 读者 之 前 已 经 做 过 类 似 的 
事情 ， 但 我 们 提供 的 工具 可 以 提供 一 些 帮助 。 这 个 工具 名 为 ptcollect， 
也 是 Percona Toolkit 中 的 一 员 。pt-collect 一 般 通 过 pt-stalk 来 调用 。 因 为 涉 
及 很 多 重要 数据 的 收集 ， 所 以 需要 用 root 权 限 来 运行 。 默 认 情 况 下 ， 局 
动 后 会 收集 30 秒 的 数据 ， 然 后 退出 。 对 于 大 多 数 问题 的 诊断 来 说 ， 这 已 
经 足够 ,但 如 果 有 误 报 (false ”positive〉 的 问题 出 现 ， 则 可 能 收集 的 信 
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过 pt-stalk 进 行 的 。 系 统 中 最 好 安装 gdb 和 oprofile， 然 后 在 pt-stalk 中 配置 
使 用 。 另 外 mysqld 也 需要 有 调试 符号 信息 H。 当 触发 条 件 满足 时 ，pt- 
collect 会 很 好 地 收集 完整 的 数据 。 它 也 会 在 目录 中 创建 时 间 惟 文件 。 在 
本 书写 作 之 际 ， 这 个 工具 是 基于 GNU/Linux 的 ， 后 续 会 迁移 到 其 他 操作 
系统 ， 这 是 一 个 好 的 开始 。 





解释 结果 数据 


如 有 末 已 经 正确 地 设置 好 触发 条 件 ， 并 且 长 时 间 运 行 ptrstaik， 则 只 需 
要 等 待 足够 长 的 时 间 来 捕获 几 次 问题 ， 就 能 够 得 到 大 量 的 数据 来 进行 得 
选 。 从 哪里 开始 最 好 呢 ? 我 们 建议 先 根 据 两 个 目的 来 查看 一 些 东西 。 第 
一 ， 检 查 问题 是 否 真 的 发 生 了 ， 因 为 有 很 多 的 样本 数据 需要 检查 ， 如 果 
是 误 报 就 会 白白 浪费 大 量 的 时 间 。 第 二 ， 是 否 有 非常 明显 的 跳跃 性 变 
化 。 



































获 一 些 样本 数据 也 很 重要 ， 而 不 只 是 在 有 问题 时 捕获 数据 。 
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K (process list) 中 查询 的 状态 时 ， 可 以 回答 一 些 诸如 “大 量 查 询 处 于 正在 排序 结果 的 状态 是 不 


是 正常 的 ”的 问题 。 
































查看 异常 的 查询 或 事务 的 行为 ， 以 及 异常 的 服务 器 内 部 行为 通常 都 
是 最 有 收获 的 。 查 询 或 事务 的 行为 可 以 显示 是 否 是 由 于 使 用 服务 器 的 方 
式 导致 的 问题 ， 性 能 低下 的 SQL 查 询 、 使 用 不 当 的 索引 、 设 计 糟 糕 的 数 
据 库 逻辑 架构 等 。 通 过 抓 取 TCP 流 量 或 者 SHOW PROCESSL1ST 输 出 ， 可 以 
获得 查询 和 事务 出 现 的 地 方 ， 从 而 知道 用 户 对 数据 库 进 行 了 什么 操作 。 














通过 服务 器 的 内 部 行为 则 可 以 清楚 服务 器 是 否 有 bug， 或 者 内 部 的 性 能 
和 扩展 性 是 否 有 问题 。 这 些 信息 在 类 似 的 地 方 都 可 以 看 到 ， 包 括 
在 oprofile 或 者 gdb 的 输出 中 ， 但 要 理解 则 需要 更 多 的 经 验 。 








如 末 遇 到 无 法 解释 的 错误 ， 则 最 好 将 收集 到 的 所 有 数据 打包 ， 提 区 
给 技术 支持 人 员 进 行 分 析 。MySQL 的 技术 支持 专家 应 该 能 够 从 数据 中 
分 析出 原因 ， 详 细 的 数据 对 于 支持 人 员 来 说 非常 重要 。 男 外 也 可 以 将 
Percona Toolkit 中 另外 两 款 工 具 pt-mysql-summary 和 pt-summary 的 输出 结 
果 打 包 ， 这 两 个 工具 会 输出 MySQL 的 状态 和 配置 信息 ， 以 及 操作 系统 
和 硬件 的 信息 。 











Percona Toolkit 还 提供 了 一 称快 速 检查 收集 到 的 样本 数据 的 工 
H: pt-sift。 这 个 工具 会 轮流 导航 到 所 有 的 样本 数据 ， 得 到 每 个 样本 的 
汇总 信息 。 如 果 需 要 ， 也 可 以 钻 取 到 详细 信息 。 使 用 此 工具 至 少 可 以 少 
打 很 多 字 ， 少 敲 很 多 次 键盘 。 








前 面 我 们 演示 了 状态 计数 堪 和 线程 状态 的 例子 。 在 本 章 结束 之 前 ， 
将 再 给 出 一 些 oprofile 和 gqdb 的 输出 例子 。 下 面 是 一 个 问题 服务 器 上 的 
oprofile 输 出 ， 你 能 找到 问题 吗 ? 


samples % image name app name symbol name 
893793 31.1273 /no-vmlinux /no-vmlinux (no symbo 
325733 11.3440 mysqld mysqld Query_cac 
117732 4.1001 libc libc (no symbo 
102349 3.5644 mysqld mysqld my_hash_s 
76977 2.6808 mysqld mysqld MYSQLpars 
71599 2.4935 libpthread libpthread pthread_m 
52203 1.8180 mysqld mysqld read_view 


46516 1.6200 mysqld mysqld Query_cac 


42153 1.4680 mysqld mysqld Query_cac 
37359 1.3011 mysqld mysqld MYSQL1lex( 
35917 1.2508 libpthread libpthread __pthread 
34248 1.1927 mysqld mysqld __intel_n 








如 果 你 的 答案 是 “查询 缓存 ”， 那 么 恭喜 你 答对 了 。 在 这 里 查询 缓存 
导致 了 大 量 的 工作 ， 并 拖 慢 了 整个 服务 器 。 这 个 问题 是 一 夜 之 间 突 然 发 
生 的 ， 系 统 变 慢 了 50 倍 ， 但 这 期 间 系 统 没有 做 过 任何 其 他 变更 。 关 闭 查 
询 缓存 后 系统 性 能 恢复 了 正常 。 这 个 例子 比较 简单 地 解释 了 服务 器 内 部 
行为 对 性 能 的 影响 。 








另外 一 个 重要 的 关于 等 待 分 析 的 性 能 瓶 祷 分 析 工 具 是 gdb 的 堆栈 跟 
踪 。 下 面 是 对 一 个 线程 的 堆栈 跟踪 的 输出 结果 ， 为 了 便于 印刷 做 了 一 些 
格式 化 : 





Thread 992 (Thread 0x7f6ee0111910 (LWP 31510)): 

#0 Ox0000003be560b2F9 in pthread_cond_wait@@GLIBC_2.3.2 () from / 
#1 0x00007f6ee14F0965 in os_event_wait_low () at os/osOsync.c:396 
#2 0x00007f6ee1531507 in srv_conc_enter_innodb () at srv/srvOsrv. 


#3 0x00007f6ee14c906a in innodb_srv_conc_enter_innodb () at handl 





#4 ha_innodb::index_read () at handler/ha_innodb.cc:5057 
#5 0x00000000006538c5 in ?? () 

#6 0x0000000000658029 in sub_select() () 

#7 0x0000000000658e25 in ?? () 

#8 ©x00000000006677cO in JOIN: :exec() () 

#9 0x000000000066944a in mysql_select() () 

#10 0x0000000000669ea4 in handle_select() () 


#11 0x00000000005ff89a in ?? () 

#12 0x0000000000601c5e in mysql_execute_command() () 

#13 0x000000000060701c in mysql_parse() () 

#14 0x000000000060829a in dispatch_command() () 

#15 O0x0000000000608b8a in do_command(THD*) () 

#16 0x00000000005fbdid in handle_one_connection () 

#17 O0x0000003be560686a in start_thread () from /1ib64/libpthread. 
#18 Ox0000003be4ede3bd in clone () from /11b64/libc.so.6 

#19 Ox0000000000000000 in ?? () 


堆栈 需要 上 自 下 而 上 来 看 。 也 就 是 说 ， 线 程 当前 正在 执行 的 
是 pthread cond wait 了 函数 ， 这 是 由 os event wait low 调 用 的 。 继 续 往 
下 ， 看 起 来 是 线程 试图 进入 到 InnoDB 内 核 
(srv_conc_enter_innodb) ， 但 被 放 入 了 一 个 内 部 队列 中 
(os_event_wait_low) ， 原 因应 该 是 内 核 中 的 线程 数 已 经 超过 
innodb_thread_concurrency 的 限制 。 当 然 ， 要 真正 地 发 挥 堆栈 跟 踩 的 
价值 需要 将 很 多 的 信息 聚合 在 一 起 来 看 。 这 种 技术 是 由 Domas Mituzas 
推广 的 ， 他 以 前 是 MySQL 的 文 持 工程 师 ， 开 发 了 著名 的 和 穷人 齐 析 
器 “poor man's profiler”。 他 目前 在 Facebook 工 作 ， 和 其 他 人 一 起 开发 了 
更 多 的 收集 和 分 析 扒 栈 跟踪 的 工具 。 可 以 从 他 的 这 个 网 站 发 现 更 多 的 信 


Æ: http:/www.poormansprofiler.org。 











在 Percona Toolkit 中 我 们 也 开发 了 一 个 类 似 的 穷人 剖析 器 ， 叫 做 pt 
pmp。 这 是 一 个 用 shell 和 awk 脚本 编写 的 工具 ， 可 以 将 类 似 的 堆栈 跟 踩 
输出 合并 到 一 起 ， 然 后 通过 sort|uniglsort 将 最 常见 的 条 目 在 最 前 面 输 
出 。 下 面 是 一 个 堆栈 跟踪 的 完整 例子 ， 通 过 此 工具 将 重要 的 信息 展示 了 
出 来 。 使 用 了 -15 选 项 指定 了 堆栈 跟 踩 不 超过 5 层 ， 以 免 因 太 多 前 面部 分 








相同 而 后 面部 分 不 同 的 跟踪 信息 而 导致 无 法 聚合 到 一 起 的 情况 ， 这 样 才 





能 更 好 地 显示 到 底 在 哪里 产生 了 等 待 : 


$ pt-pmp -1 5 stacktraces.txt 


507 


398 


83 


10 


BP BE BE B B 


pthread_cond_wait,one_thread_per_connection_end, handle 
start_thread, clone 


pthread_cond_wait,os_event_wait_low,srv_conc_enter_inn 





innodb_srv_conc_enter_innodb, ha_innodb: :index_read 
pthread_cond_wait,os_event_wait_low, sync_array_wait_ev 
mutex_enter_func 

pthread_cond_wait,os_event_wait_low, os_aio_simulated_h 
io_handler_thread 

pthread_cond_wait, os_event_wait_low, srv_conc_enter_inn 


innodb_srv_conc_enter_innodb, ha_innodb: :general_fetch 





pthread_cond_wait,os_event_wait_low, sync_array_wait_ev 


rw_lock_s_lock_func 





Sigwait, signal_hand, start_thread, clone, ?? 
select,os_thread_sleep, srv_lock_timeout_and_monitor_th 
select,os_thread_sleep, srv_error_monitor_thread, start_ 
select, handle _connections_sockets, main 


read, vio_read_buff, ::??,my_net_read,cli_safe_read 


pthread_cond_wait,os_event_wait_low, sync_array_wait_ev 


rw_lock_x_lock_func 





pthread_cond_wait,MYSQL_BIN_LOG: :wait_for_update, mysql 
dispatch_command, do_command 


fsync,os_file_fsync,os_file_ flush, fil_flush, log_write_ 


第 一 行 是 MySQL 中 非常 典型 的 空闲 线程 的 一 种 特征 ， 所 以 可 以 忽 
略 。 第 二 行 才 是 最 有 意思 的 地 方 ， 看 起 来 大 量 的 线程 正在 准备 进入 到 
InnoDB 内 核 中 ， 但 都 被 阻塞 了 。 从 第 三 行 则 可 以 看 到 许多 线程 都 在 等 
待 某 些 互 斥 锁 ， 但 具体 的 是 什么 锁 不 清楚 ， 因 为 扒 栈 跟踪 更 深 的 层次 被 
截断 了 。 如 果 需 要 确切 地 知道 是 什么 互 斥 锁 ， 则 需要 使 用 更 大 的 -| 选项 
重 跑 一 次 。 一 般 来 说， 这 个 堆栈 跟 踩 显示 很 多 线程 都 在 等 待 进入 到 
InnoDB， 这 是 为 什么 呢 ? 这 个 工具 并 不 清楚 ， 需 要 从 其 他 的 地 方 来 入 
are 





从 前 面 的 堆栈 跟踪 和 oprofile 报 表 来 看 ， 如 果 不 是 MySQL 和 InnoDB 
源码 方面 的 专家 ， 这 种 类 型 的 分 析 很 难 进行 。 如 果 用 户 在 进行 此 类 分 析 
时 磁 到 问题 ， 通 常 需要 求助 于 这 样 的 专家 才 行 。 


在 下 面 的 例子 中 ， 通 过 齐 析 和 等 待 分 析 都 无 法 发 现 服务 器 的 问题 ， 
需要 使 用 另外 一 种 不 同 的 诊断 技术 。 


3.4.3 ”一 个 诊断 案例 


在 本 节 中 ， 我 们 将 逐步 演示 一 个 客户 实际 碰 到 的 间 鞭 性 性 能 问题 的 
诊断 过 程 。 这 个 案例 的 诊断 需要 具备 MySQL、InnoDB 和 GNU/Linux 的 
相关 知识 。 但 这 不 是 我 们 要 讨论 的 重点 。 要 尝试 从 疯狂 中 找到 条 理 ， 阅 
读本 节 并 保持 对 之 前 的 假设 和 猜测 的 关注 ， 保 持 对 之 前 基于 合理 性 和 基 
于 可 度量 的 方式 的 关注 ， 等 等 。 我 们 在 这 里 深入 研究 一 个 具体 和 详细 的 
案例 ， 为 的 是 找到 一 个 简单 的 一 般 性 的 方法 。 














在 答 试 解决 其 他 人 提出 的 问题 之 前 ， 先 要 明确 两 件 事情 ， 并 且 最 好 
能 够 记录 下 来 ， 以 免 遗 漏 或 者 遗 走 : 





1. 首先 ， 问 题 是 什么 ? 一 定 要 清晰 地 描述 出 来 ， 费 力 去 解决 一 个 错误 
的 问题 是 常 有 的 事 。 在 这 个 案例 中 ， 用 户 抱怨 说 每 隔 一 两 天 ， 服 务 
器 就 会 拒绝 连接 ， 报 max_connections 错 误 。 这 种 情况 一 般 会 持续 
几 秒 到 几 分 钟 ， 发 生 的 时 间 非 常 随机 。 

2. 其 次 ， 为 解决 问题 已 经 做 过 什么 操作 ? 在 这 个 案例 中 ， 用 户 没 有 为 
这 个 问题 做 过 任何 操作 。 这 个 信息 非常 有 帮助 ， 因 为 很 少 有 其 他 事 
情 会 像 另 外 一 个 人 来 描述 一 件 事 情 发 生 的 确切 顺序 和 曾 做 过 的 改变 
及 其 后 果 一 样 难以 理解 〈 尤 其 是 他 们 还 是 在 经 过 几 个 不 眠 之 夜 后 满 
中 咖啡 味道 地 在 电话 里 绝望 呐喊 的 时 候 ) 。 如 果 一 台 服 务 器 遭受 过 
未 知 的 变更 ， 产 生 了 未 知 的 结果 ， 问 题 就 更 难 解 决 了 ， 尤 其 是 时 间 
又 非常 有 限 的 时 候 。 























搞 清楚 这 两 个 问题 后 ， 就 可 以 开始 了 。 不 仅 需 要 去 了 解 服务 器 的 行 
为 ， 也 需要 花 点 时 间 去 梳理 一 下 服务 器 的 状态 、 参 数 配置 ， 以 及 软 硬 件 
环境 。 使 用 ptsummary 和 pt-mysqgl-sumrmary 工 具 可 以 获得 这 些 信 息 。 简 
单 地 说 ， 这 个 例子 中 的 服务 器 有 16 个 CPU 核心 ，12GB 内 存 ， 数 据 量 有 
900MB， 且 全 部 采用 InnoDB 引 擎 ， 存 储 在 一 块 SSD 固 态 硬盘 上 。 服 务 器 
的 操作 系统 是 GNU/Linux、MySQL 版 本 5.1.37， 使 用 的 存储 引擎 版 本 是 
InnoDB plugin 1.0.4。 之 前 我 们 已 经 为 这 个 客户 解决 过 一 些 异 各 问题 ， 
所 以 对 其 系统 已 经 比较 了 解 。 过 去 数据 库 从 来 没有 出 过 问题 ， 大 多 数 问 
题 都 是 由 于 应 用 程序 的 不 恨 行为 导致 的 。 初 步 检 查 了 服务 器 也 没有 发 现 
明显 的 问题 。 查 询 有 一 些 优 化 的 空间 ， 但 大 多 数 情况 下 响应 时 间 都 不 到 
10 毫 秒 。 所 以 我 们 认为 正常 情况 下 数据 库 服务 器 运行 良好 〈 这 一 点 比较 
重要 ， 因 为 很 多 问题 一 开始 只 是 零星 地 出 现 ， 慢 慢 地 累积 成 大 问题 。 比 
如 RAID 阵 列 中 坏 了 一 块 硬 盘 这 种 情况 〉。 




















这 个 案例 研究 可 能 有 点 乏味 。 这 里 我 们 不 大 其 烦 地 展示 所 有 的 诊断 数据 ， 解 释 所 有 



































的 细节 ， 对 几 个 不 同 的 可 能 性 深入 进去 退 查 原因 。 在 实际 工作 中 ， 其 实 不 会 对 每 个 问题 都 采用 
这 样 缓慢 而 见长 的 方式 ， 也 不 推荐 大 家 这 样 做 。 这 里 只 是 为 了 更 好 地 演示 案例 而 已 。 













































































我 们 安装 好 诊断 工具 ， 在 Threads_connected 上 设置 触发 条 件 ， 正 
常情 况 下 Threads_connected 的 值 一 般 都 少 于 15， 但 在 发 生 问 题 时 该 值 
可 能 诡 升 到 几 百 。 下 面 我 们 会 先 给 出 一 个 样本 数据 的 收集 结果 ， 后 续 再 
来 评论 。 首 先 试 试看 ， 你 能 否 从 大 量 的 输出 中 找 出 问题 的 重点 在 哪里 : 





e 查询 活动 从 1000 到 10000 的 QPS， 其 中 有 很 多 是 “垃圾 ”命令 ， 比 如 
ping 一 下 服务 器 确认 其 是 否 存 活 。 其 余 的 大 部 分 是 SELECT 命令 ， 
大 约 每 秒 300 一 2000 次 ， 只 有 很 少 的 UPDATE 命 令 〈 大 约 每 秒 五 
Rz 

。 在 SHOW “ PROCESSLIST 中 主要 有 两 种 类 型 的 查询 ， 只 是 在 WHERE 条 件 
中 的 值 不 一 样 。 下 面 是 查询 状态 的 汇总 数据 : 


$ grep State: processlist.txt | sort | uniq -c | sort -rn 
161 State: Copying to tmp table 
156 State: Sorting result 
136 State: statistics 
50 State: Sending data 
24 State: NULL 
13 State: 
7 State: freeing items 
7 State: cleaning up 
1 State: storing result in query cache 
1 


State: end 











。 大 部 分 合 询 部 是 索引 扫描 或 者 范围 扫描 ， 很 少 有 全 表 扫 搬 或 者 表 关 


联 的 情况 。 

每 秒 大 约 有 20 一 100 次 排序 ， 需 要 排序 的 行 大 约 有 1000 到 12000 行 。 
每 秒 大 约 创建 12 一 90 个 临时 表 ， 其 中 有 3 一 5 个 是 磁盘 临时 表 。 

没有 表 锁 或 者 查询 绥 存 的 问题 。 

在 SHOW INNODB ”STATUS 中 可 以 观察 到 主要 的 线程 状态 是 “flushing 
buffer pool pages”， 但 只 有 很 少 的 脏 页 需要 刷新 
(Innodb_buffer_pool pages dirty) , Innodb buffer pool pagt 
也 没有 太 大 的 变化 ， 日 志 顺 序号 Cog sequence number) 和 最 后 检 
查 点 (last checkpoint) 之 间 的 差距 也 很 少 。InnoDB 绥 存 池 也 还 远 
ZAHM: 缓存 池 比 数据 集 还 要 大 很 多 。 大 多 数 线程 在 等 待 
InnoDB 队 列 : “12 queries inside InnoDB，495 queries in queue” (12 
个 查询 在 ImnoDB 内 部 执行 ，495 个 查询 在 队列 中 ) 。 

每 秒 捕获 一 次 iostat 得 出 ， 持 续 30 秒 。 从 输出 可 以 发 现 没 有 磁盘 

读 ， 而 写 操 作 则 接近 了 "天花板 ”， 所 以 MO 平均 等 待 时 间 和 队列 长 
度 都 非常 高 。 下 面 是 部 分 输出 结果 ， 为 便于 打印 输出 ， 这 里 截取 了 
部 分 字段 : 














r/s w/s rsec/s wsec/s avgqu-Sz await svctm %util 
1.00 500.00 8.00 86216.00 5.05 11.95 0.59 29.40 
0.00 451.00 0.00 206248.00 123.25 238.00 1.90 85.90 
0.00 565.00 0.00 269792.00 143.80 245.43 1.77 100.00 
0.00 649.00 0.00 309248.00 143.01 231.30 1.54 100.10 
0.00 589.00 0.00 281784.00 142.58 232.15 1.70 100.00 
0.00 384.00 0.00 162008 .00 71.80 238.39 1.73 66.60 
0.00 14.00 0.00 400.00 0.01 0.93 0.36 0.50 
0.00 13.00 0.00 248.00 0.01 0.92 0.23 0.30 
0.00 13.00 0.00 408.00 0.01 0.92 0.23 0.30 


e vmstat 的 输出 也 验证 了 iostat 的 结果 ， 并 有 昌 CPU 的 大 部 分 时 间 是 空闲 
HK), Rae BUR ES RIB ARV OSS EAT TA) (最 高 约 占 9% 的 


CPU) « 





是 不 是 / 


LU 


aM, 
pik 


WREE TARDE? 当 你 深入 一 个 系统 的 细 市 并 且 没 有 


任何 先入 为 主 (或 者 故意 忽略 了 ) 的 观念 时 ， 很 容易 磁 到 这 种 情况 ， 最 
终 只 能 检查 所 有 可 能 的 情况 。 很 多 被 检查 的 地 方 最 终 要 么 是 完全 正常 
的 ， 要 么 发 现 是 问题 导致 的 结果 而 不 是 问题 产生 的 原因 。 尽 管 此 时 我 们 











会 有 很 多 关于 问题 原因 的 猜测 ， 但 还 是 需要 继续 检查 下 面 给 出 的 oprofile 
报表 ， 并 且 在 给 出 更 多 数据 的 时 候 添 加 一 些 评 论 和 解释 : 


samples % 

473653 63.5323 
95164 12.7646 
53107 7.1234 
13698 1.8373 
13059 1.7516 
11724 1.5726 
8872 1.1900 
7577 1.0163 
6030 0.8088 
5268 0.7066 

这 里 大 多 数 符号 


image name 
no-vmlinux 


mysqld 


libc-2.10.1.s0 


ha_innodb. 
ha_innodb. 
ha_innodb. 
ha_innodb. 
ha_innodb. 
ha_innodb. 


ha_innodb. 


so 


so 


so 


so 


so 


so 


so 


app name 
no-vmlinux 


mysqld /us 


libc-2.10.1.s0 


ha_innodb. 
ha_innodb. 
ha_innodb. 
ha_innodb. 
ha_innodb. 
ha_innodb. 


ha_innodb. 


r 


so 


so 


so 


so 


so 


so 


so 


symbol name 
/no-vmlinux 
/libexec/mysqld 
memcpy 
build_template( 
btr_search_gues 
row_sel_store_m 
rec_init_offset 
row_search_for_ 
rec_get_offsets 


cmp_dtuple_rec_ 


(symbol) 代表 的 意义 并 不 是 那么 明显 ， 而 大 部 分 
的 时 间 都 消耗 在 内 核 符 号 (no-vmlinux) 4 和 一 个 通用 的 mysqld 符 号 
中 ， 这 两 个 符号 无 法 告诉 我 们 更 多 的 细节 0。 不 要 被 多 

个 ha_innodb. so 符号 分 散 了 注意 力 ， 看 一 下 它们 占用 的 百分比 就 知道 
了 ， 不 管 它们 在 做 什么 ， 其 占用 的 时 间 都 很 少 ， 所 以 应 该 不 会 是 问题 所 


在 。 这 个 例子 说 明 ， 仅 仅 从 剖析 报表 出 发 是 无 法 得 到 解决 问题 的 结果 
的 。 我 们 追踪 的 数据 是 错误 的 。 如 果 遇 到 上 述 例子 这 样 的 情况 ， 需 要 继 
续 检 查 其 他 的 数据 ， 寻 找 问 题 根 源 更 明显 的 证 气 。 





到 这 里 ， 如 果 和 希望 从 gdb 的 堆栈 跟踪 进行 等 竺 分机， 请 参考 3.4.2 节 
的 最 后 部 分 内 容 。 那 个 案例 就 是 我 们 当前 正在 诊断 的 这 个 问题 。 回 想 一 
下 ， 当 时 的 堆栈 跟踪 分 析 的 结果 是 正在 等 竺 进入 到 InnoDB 内 核 ， 所 以 
SHOW INNODB STATUS 的 输出 结果 中 有 “12 queries inside InnoDB, 495 


queries in queue”. 


从 上 面 的 分 析 发 现 问题 的 关键 点 了 吗 ? 没有 。 我 们 看 到 了 许多 不 同 
问题 可 能 的 症状 ， 根 据 经 验 和 直觉 可 以 推测 至 少 有 两 个 可 能 的 原因 。 但 
也 有 一 些 没 有 意义 的 地 方 。 如 果 再 次 检查 一 下 iostat 的 输出 ， 可 以 发 现 
wsec/s 列 显示 了 至少 在 6 秒 内 ， 服 务 器 每 秒 写 入 了 几 百 MB 的 数据 到 磁 
盘 。 每 个 磁盘 扇 区 是 512B， 所 以 这 里 采样 的 结果 显示 每 秒 最 多 写 入 了 
150MB 数 据 。 然 而 整个 数据 库 也 只 有 900MB 大 小 ， 系 统 的 压力 又 主要 
是 SELECT 查询 。 怎 么 会 出 现 这 样 的 情况 呢 ? 




















对 一 个 系统 进行 检查 的 时 候 ， 应 该 先 问 一 下 目 己 ， 是 人 否 也 碰 到 过 上 
面 这 种 明显 不 合理 的 问题 ， 如 果 有 就 需要 深入 调查 。 应 该 尽量 跟 进 每 一 
个 可 能 的 问题 直到 发 现 结果 ， 而 不 要 被 离 题 太 多 的 各 种 情况 分 散 了 注意 
力 ， 以 致 最 后 都 筷 记 了 最 初 要 调查 的 问题 。 可 以 把 问题 写 在 小 纸 条 上 ， 
检查 一 个 划 掉 一 个 ， 最 后 再 确认 一 遍 所 有 的 问题 都 已 经 完成 调查 〇 )。 

















在 这 一 点 上 ， 我 们 可 以 直接 得 到 一 个 结论 ， 但 却 可 能 是 错误 的 。 可 
以 看 到 主线 程 的 状态 是 InnoDB 正 在 刷新 脏 页 。 在 状态 输出 中 出 现 这 样 
的 情况 ， 一 般 都 意味 着 刷新 已 经 延迟 了 。 我 们 知道 这 个 版 本 的 InnoDB 
存在 “ 疡 狂 刷新 ”的 问题 〈 或 者 也 被 称 为 检查 点 停顿 ) 。 发 生 这 样 的 情况 











是 因为 hnoDB 没 有 按时 间 均 匀 分 布 刷 新 请 求 ， 而 是 隔 一 段 时 间 突 然 请 
求 一 次 强制 检查 点 导致 大 量 刷新 操作 。 这 种 机 制 可 能 会 导致 mnoDB 内 
部 发 生 严 重 的 阻塞 ， 导 致 万 有 的 操作 需要 排队 等 街 进入 内 核 ， 从 而 引发 
InnoDB 上 一 层 的 服务 器 产生 堆积 。 在 第 2 章 中 演示 的 例子 就 是 一 个 因 
为 “ 疡 狂 刷新 ”而 导致 性 能 周期 性 下 跌 的 问题 。 很 多 类 似 的 问题 都 是 由 于 
强制 检查 点 导致 的 ， 但 在 这 个 案例 中 却 不 是 这 个 问题 。 有 很 多 方法 可 以 
证 明 ， 最 简单 的 方法 是 查看 SHOW STATUS i Bias, Abbe 
下 |Innodb buffer pool pages flushed 的 变化 ， 之 前 已 经 提 到 了 ， 这 个 
值 并 没有 怎么 增加 。 男 外 ， 注 意 到 InnoDB 绥 冲 池 中 也 没有 大 量 的 脏 页 
需要 刷新 ， 肯 定 不 到 几 百 MB。 这 并 不 值得 尺 讶 ， 因 为 这 个 服务 器 的 工 
作 压 力 几 乎 都 是 SELECT 碍 询 。 所 以 可 以 得 到 一 个 初步 的 结论 ， 我 们 要 
关注 的 不 是 InnoDB 刷 新 的 问题 ， 而 应 该 是 刷新 延迟 的 问题 ， 但 这 只 是 
一 个 现象 ， 而 不 是 原因 。 根 本 的 原因 是 磁盘 的 VO 己 经 饱和 ，InnoDB 无 
法 完成 其 VO 操作 。 人 至 此 我 们 消除 了 一 个 可 能 的 原因 ， 可 以 从 基于 直觉 
的 原因 列表 中 将 其 划 掉 了 。 














从 结果 中 将 原因 区 别 出 来 有 时 候 会 很 困难 。 当 一 个 问题 看 起 来 很 眼 
熟 的 时 候 ， 也 可 以 跳 过 调查 阶段 直接 诊断 。 当 然 最 好 不 要 走 这 样 的 捷 
径 ， 但 有 时 候 依靠 直觉 也 非常 重要 。 如 果 有 什么 地 方 看 起 来 很 眼熟 ， 明 
智 的 做 法 还 是 需要 花 一 点 时 间 去 测量 一 下 其 充分 必要 和 条件， 以 证 明 其 是 
人 否 就 是 问题 所 在 。 这 样 可 以 市 省 大 量 时 间 ， 避 免 查 看 大 量 其 他 的 系统 和 
性 能 数据 。 不 过 也 不 要 过 于 相信 和 直觉 而 直接 下 结论 ， 不 要 说 “我 之 前 见 
过 这 样 的 问题 ， 肯 定 就 是 同样 的 问题 ”。 而 是 应 该 去 收集 相关 的 证 据 ， 
尤其 是 能 证 明 直 觉 的 证 据 。 




















y 


下 一 步 是 尝试 找 出 是 什么 导致 了 服务 器 的 IO 利用 率 异 常 的 高 。 首 
先 应 该 注意 到 


到 前 面 已 经 提 到 过 的 “服务 器 有 连续 儿 秒 内 每 秒 写 入 了 几 特 





MB 数据 到 磁盘 ， 而 数据 库 一 共 只 有 900MB 大 小 ， 怎 么 会 发 生 这 样 的 情 
况 ? ”， 注 意 到 这 里 已 经 隐 式 地 假设 是 数据 库 导 致 了 磁盘 写 入 。 那 么 有 
什么 证 据 表 明 是 数据 库 导 致 的 呢 ? 当 你 有 未 经 证 实 的 想法 ， 或 者 党 得 不 
可 思议 时 ， 如 果 可 能 的 话 应 该 去 进行 测量 ， 然 后 排除 掉 一 些 怀疑 。 











我 们 看 到 了 两 种 可 能 性 : 要 么 是 数据 库 导 致 IO“〈 如 果 能 找到 源 
头 的 话 ， 那 么 可 能 就 找到 了 问题 的 原因 ) ， 要 么 不 是 数据 库 导 致 了 所 有 
的 IO 而 是 其 他 什么 导致 的 ， 而 系统 因为 缺少 MO 资源 影响 了 数据 库 性 
能 。 我 们 也 很 小 心地 尽力 避免 引入 为 外 一 个 隐 式 的 假设 : 磁盘 很 忙 并 不 
一 定 意 味 着 MYSQL 会 有 问题 。 要 记 住 ， 这 个 服务 器 主要 的 压力 是 内 存 
读 取 ， 所 以 也 很 可 能 出 现 磁盘 长 时 间 无 法 啊 应 但 没有 造成 严重 问题 的 现 
象 。 








如 果 你 一 直 跟 随 我 们 的 推理 逻辑 ， 束 可 以 发 现 还 需要 回头 检查 一 下 
另外 一 个 假设 。 我 们 已 经 知道 磁盘 设备 很 忙 ， 因 为 其 等 待 时 间 很 高 。 对 
于 固态 硬盘 来 说 ， 其 W/O 平均 等 待 时 间 一 般 不 会 超过 1/4 秒 。 实 际 上 ， 从 
iostat 的 输出 结果 也 可 以 发 现 磁 盘 本 里 的 啊 应 还 是 很 快 的 ， 但 请 求 在 块 设 
备 队 列 中 等 待 很 长 的 时 间 才 能 进入 到 磁盘 设备 。 但 要 记 住 ， 这 只 是 iostat 
的 输出 结果 ， 也 可 能 是 错误 的 信息 。 











完 竟 是 什么 导致 了 性 能 低下 ? 


当 一 个 资源 变 得 效率 低下 时 ， 应 该 了 解 一 下 为 什么 会 这 样 。 有 如 
下 可 能 的 原因 : 
1. 资源 被 过 度 使 用 ， 余 量 已 经 不 足以 正常 工作 。 
2. 资源 没有 被 正确 配置 。 


3. 资源 已 经 损坏 或 者 失灵 。 


回 到 上 面 的 例子 中 ，iostat 的 输出 显示 可 能 是 磁盘 的 工作 负载 太 
大 ， 也 可 能 是 配置 不 正确 (在 磁盘 响应 很 快 的 情况 下 ， 为 什么 1/0 请 
求 需要 排队 这 么 长 时 间 才 能 进入 到 磁盘 ? ) 。 然 而 ， 比 较 系 统 的 需求 
和 现 有 容量 对 于 确定 问题 在 哪里 是 很 重要 的 一 部 分 。 大 量 的 基准 测试 
证 明 这 个 客户 使 用 的 这 种 SSD 是 无 法 支撑 几 百 MB/s 的 写 操 作 的 。 所 
以 ， 尽 管 iostat 的 结果 表明 磁盘 的 响应 是 正常 的 ， 也 不 一 定 是 完全 正 
确 的 。 在 这 个 案例 中 ， 我 们 没有 办 法 证 明 磁 盘 的 响应 比 iostat 的 结果 
中 所 说 的 要 慢 ， 但 这 种 情况 还 是 有 可 能 的 。 所 以 这 不 能 改变 我 们 的 看 
法 : 可 能 是 磁盘 被 潍 用 ”0 ， 或 者 是 错误 的 配置 ， 或 者 两 者 兼 而 有 
之 ， 是 性 能 低下 的 罪魁 祸首 。 





在 检查 过 所 有 诊断 数据 之 后 ， 接 下 来 的 任务 就 很 明显 了 : 测量 出 什 
么 导致 了 WO 消耗 。 不 他 的 是 ， 客 户 当 前 使 用 的 GNU/Linux 版 本 对 此 的 文 
持 不 力 。 通 过 一 些 工作 我 们 可 以 做 一 些 相 对 准确 的 猜测 ， 但 首先 还 是 需 
要 探索 一 下 其 他 的 可 能 性 。 我 们 可 以 测量 有 多 少 WO 来 自 MySQL， 但 客 
户 使 用 的 MySQL 版 本 较 低 以 致 缺 乏 一 些 诊 断 功 能 ， 所 以 也 无 法 提供 确 
切 有 利 的 支持 。 


作为 蔡 代 ， 基 于 我 们 已 经 知道 MySQL 如 何 使 用 磁盘 ， 我 们 来 观察 
MySQL 的 MO 情况 。 通 常 来 说 ，MySQL 只 会 写 数据 、 日 志 、 排 序 文 件 和 
临时 表 到 磁盘 。 从 前 面 的 状态 计数 器 和 其 他 信息 来 看 ， 首 先 可 以 排除 数 
据 和 日 志 的 写 入 问题 。 那 么 ， 只 能 假设 MySQL 突 然 写 入 大 量 数据 到 临 
时 表 或 者 排序 文件 ， 如 何 来 观察 这 种 情况 呢 ? 有 两 个 简单 的 方法 : 一 是 
观察 磁盘 的 可 用 空间 ， 二 是 通过 lsof 命 令 观察 服务 器 打开 的 文件 句柄 。 

















这 两 个 方法 我 们 都 采用 了 ， 结 采 也 足以 满足 我 们 的 需求 。 下 面 是 问题 期 
间 每 秒 运行 df-h 的 结果 : 


Filesystem Size Used Avail Use% Mounted on 
/dev/sda3 58G 20G 36G 36% / 

/dev/sda3 58G 20G 36G 36% 
/dev/sda3 58G 19G 36G 35% 
/dev/sda3 58G 19G 36G 35% 
/dev/sda3 58G 19G 36G 35% 
/dev/sda3 58G 19G 36G 35% 
/dev/sda3 58G 18G 37G 33% 
/dev/sda3 58G 18G 37G 33% 


SU TN e NN ON ON ON ON 


/dev/sda3 58G 18G 37G 33% 


下 面 则 是 1sof 的 数据 ， 因 为 条 些 原因 我 们 每 五 秒 才 收集 一 次 。 我 们 
简单 地 将 mysqld 在 /tmp 中 打开 的 文件 大 小 做 了 加 总 ， 并 且 把 总 大 小 和 采 
样 时 的 时 间 戳 一 起 输出 到 结果 文件 中 : 


$ awk ' 
/mysqid.*tmp/ { 
total += $7; 
} 
/ASun Mar 28/ && total { 
printf "%s %7.2f MB\n", $4, total/1024/1024; 
total = 0; 
}' lsof.txt 
18:34:38 1655.21 MB 
18:34:43 1.88 MB 


18:34:48 1.88 MB 
18:34:53 1.88 MB 
18:34:58 1.88 MB 


从 这 个 数据 可 以 看 出 ， 在 问题 之 初 MySQL 大 约 写 了 1.5GB 的 数据 到 
临时 表 ， 这 和 之 前 在 SHOW ”PROCESSL1ST 中 有 大 量 的 “Copying to tmp 
table” 相 吻合 。 这 个 证 据 表 明 可 能 是 某 些 效率 低下 的 查询 风暴 耗 尽 了 磁 
盘 资 源 。 根 据 我 们 的 工作 直觉 ， 出 现 这 种 情况 比较 普遍 的 一 个 原因 是 组 
存 失 效 。 当 memcached 中 所 有 绥 存 的 条 目 同 时 失效 ， 而 又 有 很 多 应 用 需 
要 同时 访问 的 时 候 ， 丈 会 出 现 这 种 情况 。 我 们 给 开发 人 员 出 示 了 部 分 采 
样 到 的 查询 ， 并 讨论 这 些 查 询 的 作用 。 实 际 情况 是 ， 组 存 同 时 失效 就 是 
罪魁 祸首 〈 这 验证 了 我 们 的 直觉 ) 。 一 方面 开发 人 员 在 应 用 层面 解决 组 
存 失效 的 问题 ; 另 一 方面 我 们 也 修改 了 查询 ， 避 免 使 用 磁盘 临时 表 。 这 
两 个 方法 的 任何 一 个 都 可 以 解决 问题 ， 当 然 最 好 是 两 个 都 实施 。 




















如 果 读 者 一 直 顺 着 我 们 前 面 的 思路 读 下 来 ， 可 能 还 会 有 一 些 疑 问 。 
在 这 里 我 们 可 以 稍微 解释 一 下 《我 们 在 本 章 引 用 的 方法 在 审阅 的 时 候 已 
经 检查 过 一 过): 





为 什么 我 们 不 一 开始 就 优化 慢 查 询 ? 











因为 问题 不 在 于 慢 查 询 ， 而 是 “ 太 多 连接 ”的 错误 。 当 然 ， 因 为 
慢 查 询 ， 太 多 僵 询 的 时 间 过 长 而 导致 连接 堆积 在 逻辑 上 也 是 成 并 
的 。 但 也 有 可 能 是 其 他 原因 导致 连接 过 多 。 如 果 没 有 找到 问题 的 真 
下 原因， 那么 回头 查看 慢 查 询 或 其 他 可 能 的 原因 ， 看 是 否 能 够 改善 
是 很 自然 的 事情 地 。 但 这 样 做 大 多 时 候 会 让 问题 变 得 更 糟 。 如 果 
你 把 一 辆 车 开 到 机 械 师 那 里 抱 钨 说 有 和 寞 啊 ， 假 如 机 械 师 没 有 指出 寞 
啊 的 原因 ， 也 不 去 检查 其 他 的 地 方 ， 而 是 直接 做 了 四 轮 平衡 和 更 换 











变速 箱 油 ， 然 后 把 账单 扔 给 你 ， 你 也 会 党 得 不 爽 的 吧 ? 


但 是 查询 由 于 糟糕 的 执行 计划 而 执行 缓慢 不 是 一 种 警告 吗 ? 





在 事故 中 确实 如 此 。 但 慢 查 询 到 抵 是 原因 还 是 结果 ? 在 深入 调 
但 前 是 无 法 知晓 的 。 记 住 ， 在 正常 的 时 候 这 个 查询 也 是 正常 运行 
的 。 一 个 查询 需要 执行 亿 esort 和 创建 临时 表 并 不 一 定 意味 着 就 是 有 
问题 的 。 尽 管 消除 filesort 和 临时 表 通 常 来 说 是 “最 佳 实践 ”。 


























通常 的 “最 佳 实践 ”自然 有 它 的 道理 ， 但 不 一 定 是 解决 菜 些 特殊 
问题 的 “灵丹妙药 ”。 比 如 说 问题 可 能 是 因为 很 简单 的 配置 错误 。 我 
们 碰 到 过 很 多 这 样 的 案例 ， 问 题 本 来 是 由 于 错误 的 配置 导致 的 ， 却 
去 优化 查询， 这 不 但 浪费 了 时 间 ， 也 使 得 真正 问题 被 解决 的 时 间 被 
拖延 了 。 








如 果 缓 存 项 被 重新 生成 了 很 多 次 ， 是 不 是 会 导致 产生 很 多 
的 查询 呢 ? 


样 


I 


这 个 问题 我 们 确实 还 没有 调查 到 。 如 果 是 多 线程 重新 生成 同样 
的 缓存 项 ， 那 么 确实 有 可 能 导致 产生 很 多 同样 的 查询 (这 和 很 多 同 
类 型 的 查询 不 同 ， 比 如 WHERE 子 句 中 的 参数 可 能 不 一 样 )。 注 意 
到 这 样 会 刺激 我 们 的 直觉 ， 并 更 快 地 带 我 们 找到 问题 的 解决 方案 。 





每 秒 有 几 百 次 SELECT 查询 ， 但 只 有 五 次 UPDATE。 怎 么 能 确定 这 
五 次 UPDATE 的 压力 不 会 导致 问题 呢 ? 


这 些 UPDATE 有 可 能 对 服务 器 造成 很 大 的 压力 。 我 们 没有 将 真正 
的 查询 语句 展示 出 来 ， 因 为 这 样 可 能 会 将 事情 搞 得 更 杂乱 。 但 有 一 
太 很 明确 ， 系 种 查询 的 绝对 数量 不 一 定 有 意义 。 





1/0 风 暴 最 初 的 证 据 看 起 来 不 是 很 充分 ? 


是 的 ， 确 实 是 这 样 。 有 很 多 种 解释 可 以 说 明 为 什么 一 个 这 么 小 
的 数据 库 可 以 产生 这 么 大 量 的 写 入 磁盘 ， 或 者 说 为 什么 磁盘 的 可 用 
空间 下 降 得 这 么 快 。 这 个 问题 中 使 用 的 MySQL 和 GNU/Linux 版 本 都 
很 难 对 一 些 东 西 进 行 测量 (但 不 是 说 完全 不 可 能 ) 。 尽 管 在 很 多 时 
候 我 们 可 能 扮演 “魔鬼 代言 人 ”的 角色 ， 但 我 们 还 是 以 尽量 平衡 成 本 
和 潜在 的 利益 为 第 一 优先 级 。 越 是 难以 准确 测量 的 时 候 ， 成 本 / 收 
益 比 越 攀 升 ， 我 们 也 更 愿意 接受 不 确定 性 。 














之 前 说 过 “数据 库 过 去 从 来 没 出 过 问题 ”是 一 种 偏见 吗 ? 


是 的 ， 这 就 是 偏见 。 如 果 抓 住 问 题 ， 很 好 ;， 如 果 没 有 ， 也 可 以 
古 证 明 我 们 都 有 偏见 的 很 好 例子 。 





至 此 我 们 要 结束 这 个 案例 的 学 习 了 。 需 要 指出 的 是 ， 如 果 使 用 了 话 
如 New ”Relic 这 样 的 剂 析 工 具 ， 即 使 没有 我 们 的 参与 ， 也 可 能 解决 这 个 


问题 。 


3.5 hat LA 


我 们 已 经 演示 了 很 多 剖析 MySQL、 操 作 系统 及 查询 的 方法 。 我 们 
也 演示 了 那些 我 们 觉得 很 有 用 的 案例 。 当 然 ， 通 过 本 书 ， 我 们 还 会 展示 
更 多 工具 和 技术 来 检查 和 测量 系统 。 但 是 等 一 下 ， 本 章 还 有 更 多 工具 没 


介绍 呢 。 











3.5.1 使 用 USER _STATISTICS 表 


Percona Server 和 MariaDB 都 引入 了 一 些 额 外 的 对 象 级 别 使 用 统计 的 
INFORMAT10N_SCHEMA 表 ， 这 些 最 初 是 由 Google 开 发 的 。 这 些 表 对 于 查找 
服务 器 各 部 分 的 实际 使 用 情况 非常 有 帮助 。 在 一 个 大 型 企业 中 ，DBA 负 
责 管理 数据 库 ， 但 其 对 开发 缺少 话语 权 ， 那 么 通过 这 些 表 就 可 以 对 数据 
库 活动 进行 测量 和 审计 ， 并 且 强 制 执 行使 用 策略 。 对 于 像 共 享 主机 环境 
这 样 的 多 租户 环境 也 同样 有 用 。 男 外 ， 在 查找 性 能 问题 时 ， 这 些 表 也 可 
以 帮助 找 出 数据 库 中 什么 地 方 花 费 了 最 多 的 时 间 ， 或 者 什么 表 或 索引 使 
用 得 最 频繁 ， 抑 或 最 不 频繁 。 下 面 就 是 这 些 表 : 











ee ei ers 2 ee amo ee 
| CLIENT STATISTICS | 
| INDEX STATISTICS | 
| TABLE_STATISTICS | 
| THREAD STATISTICS | 
| USER STATISTICS | 
十 





这 里 我 们 不 会 详细 地 演示 针对 这 些 表 的 所 有 有 用 的 查询 ， 但 有 几 个 





可 以 查找 使 用 得 最 多 或 者 使 用 得 最 少 的 表 和 索引 ， 通 过 读 取 次 数 或 
者 更 新 次 数 ， 或 者 两 者 一 起 排序 。 

可 以 查找 出 从 未 使 用 的 索引 ， 可 以 考虑 删除 之 。 

。 可 以 看 看 复制 用 户 的 CONNECTED_TIME 和 BUSY_TIME， 以 确认 复制 是 
否 会 很 难 跟 上 主 库 的 进度 。 


在 MySQL 5.6 中 ，Performance Schema 中 也 添加 了 很 多 类 似 上 面 这 
些 功 能 的 表 。 


3.5.2 ”使 用 strace 


strace 工 具 可 以 调 碍 系统 调用 的 情况 。 有 好 几 种 可 以 使 用 的 方法 ， 
其 中 一 种 是 计算 系统 调用 的 时 间 并 打印 出 来 : 
$ strace -cfp $(pidof mysqld) 


Process 12648 attached with 17 threads - interrupt to quit 
‘CProcess 12648 detached 


% time seconds usecs/call calls errors syscall 
73.51 0.608908 13839 44 select 
24.38 0.201969 20197 10 futex 

0.76 0.006313 1 11233 3 read 
0.60 0.004999 625 unlink 
0.48 0.003969 22 180 write 
0.23 0.001870 11 178 pread64 
0.04 0.000304 0 5538 _llseek 


[some lines omitted for brevity] 


100.00 0.828375 17834 46 total 


这 种 用 法 和 oprofile 有 点 像 。 但 是 oprofile 还 可 以 剖析 程序 的 内 部 符 
号 ， 而 不 仅仅 是 系统 调用 。 另 外 ，strace 拦 截 系统 调用 使 用 的 是 不 同 于 
oprofije 的 技术 ， 这 会 有 一 些 不 可 预期 性 ， 开 销 也 更 大 些 。strace 度 量 时 
使 用 的 是 实际 时 间 ， 而 oprofile 使 用 的 是 花费 的 CPU 周期 。 举 个 例子 ， 当 








IO 等 竺 出现 问题 的 时 候 ，strace 能 将 它们 显示 出 来 ， 因 为 它 从 诸如 read 
或 者 pread64 这 样 的 系统 调用 开始 计时 ， 直 到 调用 结束 。 但 oprofile 不 会 
这 样 ， 因 为 WO 系统 调用 并 不 会 真正 地 消耗 CPU 周 期 ， 而 只 是 等 待 /O 完 
成 而 已 。 


我 们 会 在 需要 的 时 候 使 用 oprofile， 因 为 strace 对 像 mysqld 这 样 有 大 
量 线程 的 场景 会 产生 一 些 副 作用 。 当 strace 附 加 上 去 后 ，mysqld 的 运行 
会 变 得 很 慢 ， 因 此 不 适合 在 产品 环境 中 使 用 。 但 在 某 些 场景 中 strace 还 
是 相当 有 用 的 ，Percona “Toolkit 中 有 一 个 叫做 ptioprofije 的 工具 就 是 使 
用 strace 来 生成 IO 活 动 的 剖析 报告 的 。 这 个 工具 很 有 帮助 ， 可 以 证 明 或 
者 驳斥 某 些 难以 测量 的 情况 下 的 一 些 观 点 ， 此 时 其 他 方法 很 难 达到 目的 

(如 果 运 行 的 是 MySQL 5.6， 使 用 Performance “Schema 也 可 以 达到 目 
的 ) 。 








3.6 总结 


化 。 


本 章 给 出 了 一 些 基 本 的 思路 和 技术 ， 有 助 于 你 成 功 地 进行 性 能 优 
正确 的 思维 方式 是 开启 系统 的 全 部 潜力 和 应 用 本 书 其 他 章节 提供 的 


知识 的 关键 。 下 面 是 我 们 试图 演示 的 一 些 基 本 知识 点 : 





我 们 认为 定义 性 能 最 有 效 的 方法 是 啊 应 时 间 。 

MARTON RICE A OC, Hr PAPE BE DCL Fi BEEF 
量 、 全 方位 及 完整 的 啊 应 时 间 测 量 。 

测量 的 最 佳 开始 点 是 应 用 程序 ， 而 不 是 数据 库 。 即 使 问题 出 在 底层 
的 数据 库 ， 借 助 民 好 的 测量 也 可 以 很 容易 地 发 现 问题 。 

大 多 数 系统 无 法 完整 地 测量 ， 测 量 有 时 候 也 会 有 错误 的 结果 。 但 也 
可 以 想 办 法 红 过 一 些 限制 ， 并 得 到 好 的 结果 《〈 但 是 要 能 意识 到 所 使 
用 的 方法 的 缺陷 和 不 确定 性 在 哪里 ) 。 

完整 的 汕 量 会 产生 大 量 需 要 分 析 的 数据 ， 所 以 需要 用 到 剂 析 器 。 这 
征 最 佳 的 工具 ， 可 以 帮助 将 重要 的 问题 骨 泡 到 前 面 ， 这 样 就 可 以 诀 
定 从 哪里 开始 分 析 会 比较 好 。 

剖析 报告 是 一 种 汇总 信息 ， 掩 盖 和 丢弃 了 太 多 细节 。 而 且 它 不 会 告 
诉 你 缺少 了 什么 ， 所 以 完全 依赖 训 析 报告 也 是 不 明智 的 。 

有 两 种 消耗 时 间 的 操作 工作 或 者 等 待 。 大 多 数 副 析 器 只 能 测量 因 
为 工作 而 消耗 的 时 间 ， 所 以 等 每 分 析 有 时 候 是 很 有 用 的 补充 ， 尤 其 
是 当 CPU 利 用 率 很 低 但 工作 却 一 直 无 法 完成 的 时 候 。 

优化 和 提升 是 两 回 事 。 当 继续 提升 的 成 本 超过 收益 的 时 候 ， 应 当 停 
止 优化 。 

注意 你 的 直觉 ， 但 应 该 只 根据 直觉 来 指导 解决 问题 的 思路 ， 而 不 是 
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用 于 确定 系统 的 问题 。 决 策应 当 尽 量 基于 数据 而 不 是 感觉。 





总 体 来 说 ， 我 们 认为 解决 性 能 问题 的 方法 ， 首 先是 要 澄清 问题 ， 然 
后 选择 合适 的 技术 来 解答 这 些 问 题 。 如 果 你 想 尝 试 提升 服务 器 的 总 体 性 
能 ， 那 么 一 个 比较 好 的 起 点 是 将 所 有 但 询 记 录 到 日 志 中 ， 然 后 利用 pt- 
guery-digest 工 具 生 成 系统 级 别 的 训 析 报告 。 如 果 是 要 奶 查 某 些 性 能 低下 
的 查询 ， 记 录 和 剖析 的 方法 也 会 有 帮助 。 可 以 把 精力 放 在 寻找 那些 消耗 
时 间 最 多 的 、 导 致 了 糟糕 的 用 户 体验 的 ， 或 者 那些 高 度 变化 的 ， 抑 或 有 
奇怪 的 啊 应 时 间 直 方 网 的 查询 。 当 找到 了 这 些 * 坏 ”得 询 时 ， 要 钻 取 Pr- 
query-digest 报 告 中 包含 的 该 查询 的 详细 信息 ， 或 者 使 用 SHOW PROF ILE Az 
其 他 诸如 EXPLAIN 这 样 的 工具 。 














如 果 找 不 到 这 些 碍 询 性 能 低下 的 原因 ， 那 么 也 可 能 是 遇 到 了 服务 器 
级 别 的 性 能 问题 。 这 时 ， 可 以 较 融 精度 测量 和 绘制 服务 器 状态 计数 器 的 
细 市 信息 。 如 果 通 过 这 样 的 分 析 重 现 了 问题 ， 则 应 该 通过 同样 的 数据 制 
定 一 个 可 靠 的 触发 条 件 ， 来 收集 更 多 的 诊断 数据 。 多 人 花费 一 点 时 间 来 确 
定 可 靠 的 触发 条 件 ， 尽 量 避 免 漏 检 或 者 误 报 。 如 果 已 经 可 以 捕获 故障 活 
动 期 间 的 数据 ， 但 还 是 无 法 找到 其 根本 原因 ， 则 要 么 尝试 捕获 更 多 的 数 
据 ， 要 么 尝试 寻求 帮助 。 











我 们 无 法 完整 地 测量 工作 系统 ， 但 说 到 底 它 们 都 是 系 种 状态 机 ， 所 
以 只 要 足够 细心 ， 风 辑 清晰 并 且 坚 持 下 去 ， 通 常 来 说 都 能 得 到 想 要 的 结 
条 。 要 注意 的 是 不 要 把 原因 和 结果 搞 混 了 ， 而 且 在 确认 问题 之 前 也 不 要 
随便 针对 系统 做 变动 。 





理论 上 纯粹 的 目 顶 辐 下 的 方法 分 析 和 详尽 的 测量 只 是 理想 的 情况 ， 
而 我 们 常常 需要 处 理 的 是 真实 系统 。 真 实 系统 是 复杂 且 无 法 充分 测量 
的 ， 所 以 我 们 只 能 根据 情况 尽力 而 为 。 使 用 诸如 pt-query-digest 和 
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出 问题 根源 的 直接 证 据 。 但 真 的 掌握 了 以 后 ， 已 经 足以 完成 大 部 分 的 优 
化 诊断 工作 了 。 








D 本 书 不 会 严格 区 分 查询 和 语句 ，DDL 和 DML 等 。 不 管 给 服务 器 发 送 什么 命令 ， 关 心 的 
都 是 执行 命令 的 速度 。 本 书 将 使 用 “查询 ”一 词 泛 指 所 有 发 送 给 服务 器 的 命令 。 





















































(2) 本 书 尽量 避免 从 理论 上 来 阐述 性 能 优化 一 词 ， 如 果 有 兴趣 可 以 参考 阅读 另外 两 篇 文章 。 
在 Percona 的 网 站 (http:/www.percona.com) 上 ， 有 一 篇 名 为 Goal-Driven Performance 
Optimization 的 白皮书 ， 这 是 一 篇 紧凑 的 快速 参考 页 。 另 外 一 篇 是 Cary Millsap 的 Optimizing 











Oracle Performance (O'Reilly 出 版 ”。Cary 的 优化 方法 ， 被 称 为 R 方 法 ， 是 Oracle 世 界 的 优化 黄 
金 定律 。 
(3) 也 有 人 将 优化 定义 为 提升 吞吐 量 ， 这 也 没有 什么 问题 ， 但 本 书 采用 的 不 是 这 个 定义 ， 
为 我 们 认为 响应 时 间 更 重要 ， 尽 管 吞 吐 量 在 基准 测试 中 更 容易 测量 。 
(4) MySQL 5.5 的 Performance Schema 也 没有 提供 得 询 级 别 的 细节 数据 ， 要 到 MySQL 5.6 才 提 
供 


(5) 在 此 向 Donald Rumsfeld 道 歉 。 他 的 评论 尽管 听 起 来 可 笑 ， 但 实际 上 非常 有 见地 。 

(6) 啊 !〈 这 只 是 个 玩笑 ， 我 们 并 不 坚持 。) 

(7) 我 们 将 在 后 面 展 示例 子 ， 因 为 需要 有 一 些 先 验 知识 ， 这 个 问题 跟 底 层 相 关 ， 所 以 我 们 先 
跳 过 自 顶 向 下 的 方法 。 


(8) 不 像 PHP， 大 部 分 其 他 编程 语言 都 有 一 些 内 建 的 剖析 功能 。 例 如 Ruby 可 以 使 用 -r 选 项 ， 
Perl 则 可 以 使 用 perl-d:DProf， 等 等 。 


(9) 这 里 已 经 是 尽 可 能 地 简化 描述 了 ， 实 际 上 Percona Server 的 查询 日 志 报告 会 包含 更 多 细节 
信息 ， 可 以 帮助 理解 为 什么 某 条 查询 花费 了 144ms 去 获取 一 行 数据 ， 这 个 时 间 实 在 是 太 长 了 。 


(10) 整个 视图 太 长 ， 无 法 在 书 中 全 部 打印 出 来 ， 但 Sakila 数 据 库 可 以 从 MySQL 网 站 上 下 载 
到 。 


(11) 原文 用 的 Queries， 实 际 上 这 里 有 点 问题 ， 虽 然 文档 上 也 说 这 个 参数 是 会 话 级 的 ， 但 在 
MySQL 5.1/5.5 多 个 版 本 中 实际 查询 时 发 现 其 是 全 局 级 别 的 。 一 一 译 者 注 


(12) 如 果 你 有 本 书 的 第 二 版 ， 可 能 会 注意 到 我 们 正在 彻底 改变 这 一 点 。 
(13) 再 次 强调 ， 在 没有 足够 的 理由 确信 这 是 解决 办 法 之 前 ， 不 要 随便 去 做 升级 操作 。 
(14) 到 目前 为 止 我 们 还 没 发 现 红 衣 女 ， 如 果 发 现 了 ， 一 定 会 让 你 知道 的 。 





















































































































































































































































(15) i: 使 用 GDB 是 有 侵入 性 的 。 它 会 暂时 造成 服务 器 停顿 ， 尤 其 是 有 很 多 线程 的 时 
候 ， 甚 至 有 可 能 造成 衣 溃 。 但 有 时 候 收 益 还 是 大 于 风险 的 。 如 果 服 务 器 本 身 问题 已 经 严重 到 无 
法 提供 服务 了 ， 那 么 使 用 GBD 再 造成 一 些 暂 停 也 就 无 所 谓 了 。 

(16) 有 了 时候 为 了 “优化 ”而 不 安装 符号 信息 ， 实 际 上 这 样 做 不 会 有 多 少 优化 的 效果 ， 反 而 会 
造成 诊断 问题 更 困难 。 可 以 使 用 nm 工具 检查 是 否 安装 了 符号 信息 ， 如 果 没 有 ， 则 可 以 通过 安装 
MySQL 的 debuginfo 包 来 安装 。 

(17) 理论 上 ， 我 们 需要 内 核 符号 kernel symbol) 才能 理解 内 核 中 发 生 了 什么 。 实 际 上 ， 
安装 内 核 符 号 可 能 会 比较 麻烦 ， 并 且 从 vmstat 的 输出 可 以 看 到 系统 CPU 的 利用 率 很 低 ， 所 以 即 
使 安装 了 ， 很 可 能 也 会 发 现 内 核 大 多 数 是 处 于 “sleeping” (HEIR) 状态 的 。 

(18) 这 看 起 来 是 一 个 编译 有 问题 的 MySQL 版 本 。 

(19) 或 者 换个 说 法 ， 不 要 把 所 有 的 鸡蛋 都 混在 一 个 篮子 里 。 

(20) 也 有 人 会 拨打 1-800 热 线 电 话 。 

(21) 就 像 常 说 的 “ 当 你 手中 有 了 锤子 ， 所 有 的 东西 看 起 来 都 是 钉子 ”一 样 。 









































































































































第 4 草 ”Schema 与 数据 类 型 优化 


民 好 的 逻辑 设计 和 物理 设计 是 高 性 能 的 基石 ， 应 该 根据 系统 将 要 执 
行 的 查询 语句 来 设计 schema， 这 往往 需要 权衡 各 种 因素 。 例 如 ， 反 范式 
的 设计 可 以 加 快 某 些 类 型 的 查询 ， 但 同时 可 能 使 男 一 些 类 型 的 查询 变 
慢 。 比 如 添加 计数 表 和 汇总 表 是 一 种 很 好 的 优化 得 询 的 方式 ， 但 这 些 表 
的 维护 成 本 可 能 会 很 高 。MySQL 独 有 的 特性 和 实现 细节 对 性 能 的 影 啊 
也 很 大 。 














本 章 和 聚焦 在 索引 优化 的 下 一 章 ， 上 履 盖 了 MySQL 特 有 的 schema 设 
计 方 面 的 主题 。 我 们 假设 读者 已 经 知道 如 何 设 计数 据 库 ， 所 以 本 章 既 不 
会 介绍 如 何 入 门 数据 库 设计 ， 也 不 会 讲解 数据 库 设 计 方 面 的 深入 内 容 。 
这 一 章 关 注 的 是 MySQL 数 据 库 的 设计 ， 主 要 介绍 的 是 MySQL 数 据 库 设 
计 与 其 他 关系 型 数据 库 管 理 系统 的 区 别 。 如 果 需 要 学 习 数 据 库 设 计 方 面 
的 基础 知识 ， 建 议 阅 读 Clare Churcher 的 Beginning Database 
Design (Apress 出 版 社 ) 一 书 。 














本 章 内 容 是 为 接 下 来 的 两 个 章节 做 铺垫 。 在 这 三 章 中 ， 我 们 将 讨论 
逻辑 设计 、 物 理 设计 和 但 询 执 行 ， 以 及 它们 之 间 的 相互 作用 。 这 既 需 要 
天 注 全 局 ， 也 需要 专注 细节 。 还 需要 理解 整个 系统 以 便 乔 清楚 各 个 部 分 
如 何 相互 影响 。 如 果 在 阅读 完 宗 引 和 得 询 优化 音节 后 再 回头 来 看 这 一 
半 ， 也 许 会 发 现 本 章 很 有 用 ， 很 多 讨论 的 议题 不 能 孤立 地 考虑 。 





4.1 ”选择 优化 的 数据 类 型 


MySQL 文 持 的 数据 类 型 非常 多 ， 选 择 正 确 的 数据 类 型 对 于 获得 高 
性 能 至 关 重 要 。 不 管 存储 哪 种 类 型 的 数据 ， 下 面 几 个 简单 的 原则 都 有 助 
于 做 出 更 好 的 选择 。 


更 小 的 通常 更 好 。 


一 般 情况 下 ， 应 该 尽量 使 用 可 以 正确 存储 数据 的 最 小 数据 类 型 
山 。 更 小 的 数据 类 型 通常 更 快 ， 因 为 它们 占用 更 少 的 磁盘 、 内 存 和 
CPU 缓存 ， 并 且 处 理 时 需要 的 CPU 周期 也 更 少 。 


但 是 要 确保 没有 低估 需要 存储 的 值 的 范围 ， 因 为 在 schema 中 的 
多 个 地 方 增加 数据 类 型 的 范围 是 一 个 非常 耗 时 和 痛 匠 的 操作 。 如 末 
无 法 确定 哪个 数据 类 型 是 最 好 的 ， 就 选择 你 认为 不 会 超过 范围 的 最 
小 类 型 。 如果 系统 不 是 很 忙 或 者 存储 的 数据 量 不 多 ， 或 者 是 在 可 
以 轻易 修改 设计 的 早期 阶段 ， 那 之 后 修改 数据 类 型 也 比较 容易 ) 。 











简单 就 好 


简单 数据 类 型 的 操作 通常 需要 更 少 的 CPU 周 期 。 例 如 ， 整 型 比 
字符 操作 代价 更 低 ， 因 为 字符 集 和 校对 规则 (排序 规则 〉 使 字符 比 
较 比 整 型 比较 更 复杂 。 这 里 有 两 个 例子 : 一 个 是 应 该 使 用 MySQL 
内 建 的 类 型 忽而 不 是 字符 串 来 存储 日 期 和 时 间 ， 另 外 一 个 是 应 该 用 
整 型 存储 耳 地 址 。 稍 后 我 们 将 专门 讨论 这 个 话题 。 


尽量 避免 NULL 


(RE Ze EL PY YNULL CEE 的 列 ， 即 使 应 用 程序 并 不 需要 
保存 NULL 也 是 如 此 ， 这 是 因为 可 为 NULL 是 列 的 默认 属性 鸟 。 通 常情 
况 下 最 好 指定 列 为 NOT NULL， 除 非 真 的 需要 存储 NULL 值 。 


如 果 查 询 中 包含 可 为 NULL 的 列 ， 对 MySQL 来 说 更 难 优化 ， 因 
为 可 为 NULL 的 列 使 得 索引 、 索 引 统计 和 值 比较 都 更 复杂 。 可 为 NULL 
的 列 会 使 用 更 多 的 存储 空间 ， 在 MySQL 里 也 需要 特殊 处 理 。 当 可 
为 NULL 的 列 被 索引 时 ， 每 个 索引 记录 需要 一 个 额外 的 字 节 ， 在 
MyISAM 里 甚至 还 可 能 导致 固定 大 小 的 索引 《例如 只 有 一 个 整数 列 
的 索引 》〉 变 成 可 变 大 小 的 索引 。 























通常 把 可 为 NULL 的 列 改 为 NOT NULL 带 来 的 性 能 提升 比较 小 ， 所 
以 〈 调 优 时 ) 没有 必要 首先 在 现 有 schema 中 查找 并 修改 挥 这 种 情 
况 ， 除 非 确定 这 会 导致 问题 。 但 是 ， 如 果 计 划 在 列 上 建 索 引 ， 就 应 
该 尽量 避免 设计 成 可 为 NULL 的 列 。 





当然 也 有 例外 ， 例 如 值得 一 提 的 是 ，InnoDB 使 用 单独 的 位 
(bit) 存储 NULL 值 ， 所 以 对 于 稀 玻 数据 多 有 很 好 的 空间 效率 。 但 这 
一 点 不 适用 于 MyISAM。 











在 为 列 选择 数据 类 型 时 ， 第 一 步 需要 确定 合适 的 大 类 型 : 数字 、 字 
符 串 、 时 间 等 。 这 通常 是 很 简单 的 ， 但 古 我 们 会 提 到 一 些 特殊 的 不 是 那 
么 直观 的 案例 。 





下 一 步 是 选择 具体 类 型 。 很 多 MySQL 的 数据 类 型 可 以 存储 相同 类 
型 的 数据 ， 只 是 存储 的 长 度 和 范围 不 一 样 、 人 允许 的 精度 不 同 ， 或 者 需要 
的 物理 空间 《磁盘 和 内 存 空间 ) 不 同 。 相 同 大 类 型 的 不 同 子 类 型 数据 有 
时 也 有 一 些 特殊 的 行为 和 属性 。 





例如 ，DATETIME 和 TIMESAMP 列 都 可 以 存储 相同 类 型 的 数据 : 时 间 和 
日 期 ， 精 确 到 秒 。 





然而 TIMESTAMP 只 使 用 DATETIME 一 半 的 存储 空间 ， 并 且 会 根据 时 区 
变化 ， 具 有 特殊 的 自动 更 新 能 力 。 男 一 方面 ，TIMESTAMP 人 允许 的 时 间 范 
围 要 小 得 多 ， 有 了 时候 它 的 特殊 能 力 会 成 为 障碍 。 





本 章 只 讨论 基本 的 数据 类 型 。MySQL 为 了 兼容 性 支持 很 多 别名 ， 
例如 INTEGER、B00L， 以 及 NUMER1C。 它 们 都 只 是 别名 。 这 些 别 名 可 能 令 
人 不 解 ， 但 不 会 影响 性 能 。 如 果 建 表 时 采用 数据 类 型 的 别名 ， 然 后 
用 SHOW CREATE TABLE 检查， 会 发 现 MySQL 报 告 的 是 基本 类 型 ， 而 不 是 
别名 。 


4.1.1 整数 类 型 


有 两 种 类 型 的 数字 : 整数 (whole number) 和 实数 (real 
number) 。 如 果 存 储 整 数 ， 可 以 使 用 这 几 种 整数 类 型 : TINYINT, 
SMALLINT，MEDIUMINT，INT，BIGINT。 分 别 使 用 8，16，24，32，64 位 
存储 空间 。 它 们 可 以 存储 的 值 的 范围 从 -2 SND 到 2 ND -1， 其 中 N 是 
存储 空间 的 位 数 。 


整数 类 型 有 可 选 的 UNS1GNED 属 性 ， 表 示 不 允许 负 值 ， 这 大 致 可 以 使 
正 数 的 上 限 提 高 一 倍 。 例 如 TINYINT UNS1IGNED 可 以 存储 的 范围 是 0 一 
255， 而 TINYINT 的 存储 范围 是 -128 一 127。 





有 符号 和 无 符号 类 型 使 用 相同 的 存储 空间 ， 并 具有 相同 的 性 能 ， 因 
此 可 以 根据 实际 情况 选择 合适 的 类 型 。 








你 的 选择 决定 MySQL 是 怎么 在 内 存 和 磁盘 中 保存 数据 的 。 然 而 ， 
整数 计算 一 般 使 用 64 位 的 BIGINT 整 数 ， 即 使 在 32 位 环境 也 是 如 此 。 (一 
些 聚 合 函数 是 例外 ， 它 们 使 用 DECIMAL 或 DOUBLE 进 行 计 算 ) 。 


MySQL 可 以 为 整数 类 型 指定 宽度 ， 例 如 INT (11) ， 对 大 多 数 应 用 
这 是 没有 意义 的 : 它 不 会 限制 值 的 合法 范围 ， 只 是 规定 了 MySQL 的 一 
些 交 互 工具 《例如 MySQL 命 令 行 客户 端 ) 用 来 显示 字符 的 个 数 。 对 于 
存储 和 计算 来 说 ，INT (1) 和 INT (20) 是 相同 的 。 




















Ce 比如 Infobright， 有 时 也 有 自 定 义 的 存储 格式 和 压缩 方案 ， 并 




















不 一 定 使 用 常见 的 MySQL 内 置 引 擎 的 方式 。 
4.1.2 ”实数 类 型 
实数 是 带 有 小 数 部 分 的 数字 。 然 而 ， 它 们 不 只 是 为 了 存储 小 数 部 


分 ; 也 可 以 使 用 DECIMAL 存 储 比 B1GINT 还 大 的 整数 。MySQL 既 支持 精确 
类 型 ， 也 文 持 不 精确 类 型 。 








FLOAT 和 DOUBLE 类 型 支持 使 用 标准 的 浮 点 运算 进行 近似 计算 。 如 果 
要 知道 浮 点 运算 是 怎么 计算 的 ， 则 需要 研究 所 使 用 的 平台 的 浮 点 数 的 
具体 实现 。 





DECIMAL 类 型 用 于 存储 精确 的 小 数 。 在 MySQL 5.0 和 更 高 版 
本 ，DECIMAL 类 型 支持 精确 计算 。MYySQL 4.1 以 及 更 早 版 本 则 使 用 浮 点 
运算 来 实现 DECIAML 的 计算 ， 这 样 做 会 因为 精度 损失 导致 一 些 奇怪 的 结 
果 。 在 这 些 版 本 的 MySQL 中 ，DECIMAL 只 是 一 个 “存储 类 型 ”。 


因为 CPU 不 文 持 对 DECIMAL 的 直接 计算 ， 所 以 在 MySQL ”5.0 以 及 更 
高 版 本 中 ，MySQL 服 务 器 自身 实现 了 DECIMAL 的 高 精度 计算 。 相 对 而 
言 ，CPU 直 接 支 持原 生 浮 点 计算 ， 所 以 浮 点 运算 明显 更 快 。 


浮 点 和 DECIMAL 类 型 都 可 以 指定 精度 。 对 于 DECIMAL 列 ， 可 以 指定 小 
数 点 前 后 所 允许 的 最 大 位 数 。 这 会 影响 列 的 空间 消耗 。MySQL 5.0 和 更 
高 版 本 将 数字 打包 保存 到 一 个 二 进 制 字符 串 中 (每 4 个 字 节 存 9 个 数 
F) 。 例 如 ，DECIMAL (18,9) 小 数 点 两 边 将 各 存储 9 个 数字 ， 一 共 使 用 
OF: 小 数 点 前 的 数字 用 4 个 字 节 ， 小 数 点 后 的 数字 用 4 个 字 节 ， 小 
数 点 本 身 占 1 个 字 节 。 














MySQL ”5.0 和 更 高 版 本 中 的 DEC1MAL 类 型 允许 最 多 65 个 数字 。 而 早 
期 的 MySQL 版 本 中 这 个 限制 是 254 个 数字 ， 并 且 保 存 为 未 压缩 的 字符 串 
(每 个 数字 一 个 字 节 ) 。 然 而 ， 这 些 〈 早 期 ) 版 本 实际 上 并 不 能 在 计算 
中 使 用 这 么 大 的 数字 ， 因 为 DECIMAL 只 是 一 种 存储 格式 ， 在 计算 中 
DECIMAL 会 转换 为 DOUBLE 类 型 。 





有 多 种 方法 可 以 指定 浮 点 列 所 需要 的 精度 ， 这 会 使 得 MySQL 悄 悄 
选择 不 同 的 数据 类 型 ， 或 者 在 存储 时 对 值 进行 取舍 。 这 些 精度 定义 是 非 
标准 的 ， 所 以 我 们 建议 只 指定 数据 类 型 ， 不 指定 精度 。 











浮 点 类 型 在 存储 同样 范围 的 值 时 ， 通 凋 比 DECIMAL 使 用 更 少 的 空 
间 。FLOAT 使 用 4 个 字 节 存储 。DOUBLE 占 用 8 个 字 节 ， 相 比 FLOAT 有 更 高 
的 精度 和 更 大 的 范围 。 和 整数 类 型 一 样 ， 能 选择 的 只 是 存储 类 型 
MySQL 使 用 DOUBLE 作 为 内 部 浮 点 计算 的 类 型 。 





因为 需要 额外 的 空间 和 计算 开销 ， 所 以 应 该 尽量 只 在 对 小 数 进 行 精 
确 计算 时 才 使 用 DECI1MAL 一 一 例如 存储 财务 数据 。 但 在 数据 量 比较 大 的 


时 候 ， 可 以 考虑 使 用 BIGINT 代 答 DECIMAL， 将 需要 存储 的 货币 单位 根据 

小 数 的 位 数 乘 以 相应 的 倍数 即 可 。 假 设 要 存储 财务 数据 精确 到 万 分 之 一 
分 ， 则 可 以 把 所 有 金额 乘 以 一 百 万 ， 然 后 将 结果 存储 在 BIGINT 里 ， 这 样 
可 以 同时 避免 浮 扣 存储 计算 不 精确 和 DECIMAL 精 确 计算 代价 高 的 问题 。 


4.1.3 ”字符 品类 型 


MySQL 文 持 多 种 字符 串 类 型 ， 每 种 类 型 还 有 很 多 变种 。 这 些 数 据 
类 型 在 4.1 和 5.0 版 本 发 生 了 很 大 的 变化 ， 使 得 情况 更 加 复杂 。 从 MySQL 
4.1 开 始 ， 每 个 字符 串 列 可 以 定义 自己 的 字符 集 和 排序 规则 ， 或 者 说 校 
对 规则 Ccollation) 【更 多 关于 这 个 主题 的 信息 请 参考 第 7 草 ) 。 这 些 东 
西 会 很 大 程度 上 影响 性 能 。 











VARCHAR 和 CHAR 类 型 





VARCHAR 和 CHAR 是 两 种 最 主要 的 字符 串 类 型 。 不 洱 的 是 ， 很 难 精确 
地 解释 这 些 值 是 怎么 存储 在 磁盘 和 内 存 中 的 ， 因 为 这 跟 存储 引擎 的 具体 
实现 有 关 。 下 面 的 描述 假设 使 用 的 存储 引擎 是 mnoDB 和 /或 者 
MyISAM。 如 果 使 用 的 不 是 这 两 种 存储 引擎 ， 请 参考 所 使 用 的 存储 引擎 
的 文档 。 











先 看 看 VARCHAR 和 CHAR 值 通常 在 磁盘 上 怎么 存储 。 请 注意 ， 存 储 引 
擎 存储 CHAR 或 者 VARCHAR 值 的 方式 在 内 存 中 和 在 磁盘 上 可 能 不 一 样 ， 所 
以 MySQL 服 务 器 从 存储 引擎 读 出 的 值 可 能 需要 转换 为 另 一 种 存储 格 
式 。 下 面 是 关于 两 种 类 型 的 一 些 比较 。 











VARCHAR 





VARCHAR 类 型 用 于 存储 可 变 长 字符 串 ， 是 最 常见 的 字符 串 数据 
类 型 。 它 比 定 长 类 型 更 节省 空间 ， 因 为 它 仅 使 用 必要 的 空间 〈 例 
如 ， 越 短 的 字符 串 使 用 越 少 的 空间 〉 。 有 一 种 情况 例外 ， 如 果 
MySQL 表 使 用 ROW_FORMAT=F1XED 创 建 的 话 ， 每 一 行 都 会 使 用 定 长 
存储 ， 这 会 很 浪费 空间 。 


VARCHAR 需 要 使 用 1 或 2 个 额外 字 节 记录 字符 串 的 长 度 : 如 果 列 
的 最 大 长 度 小 于 或 等 于 255 字 节 ， 则 只 使 用 1 个 字 节 表示 ， 和 否则 使 用 
2 个 字 市 。 假 设 采 用 latin1 字 符 集 ， 一 个 VARCHAR (10) 的 列 需 要 11 
个 字 节 的 存储 空间 。VARCHAR (1000)〉 的 列 则 需要 1002 个 字 节 ， 
为 需要 2 个 字 节 存储 长 度 信息 。 








VARCHAR 节 省 了 存储 空间 ， 所 以 对 性 能 也 有 帮助 。 但 是 ， 由 于 
行 是 变 长 的 ， 在 UPDATE 时 可 能 使 行 变 得 比 原来 更 长 ， 这 就 导致 需要 
做 额外 的 工作 。 如 果 一 个 行 占用 的 空间 增长 ， 并 且 在 页 内 没有 更 多 
的 空间 可 以 存储 ， 在 这 种 情况 下 ， 不 同 的 存储 引擎 的 处 理 方 式 是 不 
一 样 的 。 例 如 ，MyISAM 会 将 行 拆 成 不 同 的 片段 存储 ，InnoDB 则 需 
要 分 裂 页 来 使 行 可 以 放 进 页 内 。 其 他 一 些 存储 引擎 也 许 从 不 在 原 数 
据 位 置 更 新 数据 。 





下 面 这 些 情况 下 使 用 VARCHAR 是 合适 的 : 字符 串 列 的 最 大 长 度 
比 平均 长 度 大 很 多 ; 列 的 更 新 很 少 ， 所 以 碎片 不 是 问题 ， 使 用 了 像 
UTF-8 这 样 复杂 的 字符 集 ， 每 个 字符 都 使 用 不 同 的 字 节 数 进行 存 
储 。 


在 5.0 或 者 更 高 版 本 ，MySQL 在 存储 和 检索 时 会 保留 末尾 空 


格 。 但 在 4.1 或 更 老 的 版 本 ，MySQL 会 剔除 末尾 空格 。 


InnoDB 则 更 灵活 ， 它 可 以 把 过 长 的 VARCHAR 存 储 为 BLOB， 我 们 
稍 后 讨论 这 个 问题 。 


CHAR 


CHAR 类 型 是 定 长 的 : MySQL 总 是 根据 定义 的 字符 串 长 度 分 配 
足够 的 空间 。 当 存储 CHAR 值 时 ，MySQL 会 删除 所 有 的 末尾 空格 
(在 MySQL 4.1 和 更 老 版 本 中 VARCHAR 也 是 这 样 实现 的 一 一 也 就 是 
说 这 些 版 本 中 CHAR 和 VARCHAR 在 逻辑 上 是 一 样 的 ， 区 别 只 是 在 存储 
格式 上 ) 。CHAR 值 会 根据 需要 采用 空格 进行 填充 以 方便 比较 。 








CHAR 适 合 存 储 很 短 的 字符 串 ， 或 者 所 有 值 都 接近 同一 个 长 度 。 例 
如 ，CHAR 非 常 适合 存储 密码 的 MD5 值 ， 因 为 这 是 一 个 定 长 的 值 。 对 于 经 
常 变更 的 数据 ，CHAR 也 比 VARCHAR 更 好 ， 因 为 定 长 的 CHAR 类 型 不 容易 产 
生 碎 片 。 对 于 非常 短 的 列 ，CHAR 比 VARCHAR 在 存储 空间 上 也 更 有 效率 。 
例如 用 CHAR (1) 来 存储 只 有 Y 和 NN 的 值 ， 如 果 采 用 单字 节 字 符 集 避 只 需 
要 一 个 字 节 ， 但 是 VARCHAR (1) 却 需 要 两 个 字 节 ， 因 为 还 有 一 个 记录 长 
度 的 额外 字 节 。 








CHAR 类 型 的 这 些 行为 可 能 有 一 点 难以 理解 ， 下 面 通过 一 个 具体 的 例 
子 来 说 明 。 首 先 ， 我 们 创建 一 张 只 有 一 个 CHAR (10) 字段 的 表 并 且 往 里 
面 插入 一 些 值 : 


mysql> CREATE TABLE char_test( char_col CHAR(10)); 
mysql> INSERT INTO char_test(char_col) VALUES 


-> ('stringi'), (' string2'), ('string3 ') 


当 检 索 这 些 值 的 时 候 ， 会 发 现 string3 末 尾 的 空格 被 截断 了 。 


| "stringi" | 
| © string2' | 
| ‘'string3' | 
+ 





| CONCAT("'", varchar col, "'") | 
+-------------------- ES 十 
| "stringi; 

| = string2' 

| ‘string3 ' | 
a: 





数据 如 何 存储 取决 于 存储 引擎 ， 并 非 所 有 的 存储 引擎 都 会 按照 相同 
的 方式 处 理 定 长 和 变 长 的 字符 串 。Memory 引 擎 只 支持 定 长 的 行 ， 即 使 
有 变 长 字段 也 会 根据 最 大 长 度 分 配 最 大 空间 只。 不 过 ， 填 充 和 截取 空格 
的 行为 在 不 同 存储 引擎 都 是 一 样 的 ， 因 为 这 是 在 MySQL 服 务 器 层 进行 
处 理 的 。 





与 CHAR 和 VARCHAR 类 似 的 类 型 还 有 BINARY 和 VARBINARY， 它 们 存储 的 
是 二 进 制 字符 串 。 二 进 制 字符 串 跟 常规 字符 串 非常 相似 ， 但 是 二 进 制 字 
符 串 存储 的 是 字 节 码 而 不 是 字符 。 填 充 也 不 一 样 :， MySQL 填 充 BINARY 
采用 的 是 \0《〈 零 字 节 ) 而 不 是 空格 ， 在 检索 时 也 不 会 去 掉 填充 值 昌 。 





当 需 要 存储 二 进 制 数据 ， 并 且 和 希望 MySQL 使 用 字 节 码 而 不 是 字符 
进行 比较 时 ， 这 些 类 型 是 非常 有 用 的 。 二 进 制 比较 的 优势 并 不 仅仅 体现 
在 大 小 写 敏感 上 。MYySQL 比 较 BINARY 字 符 串 时 ， 每 次 按 一 个 字 节 ， 并 
且 根 据 该 字 节 的 数值 进行 比较 。 因 此 ， 二 进 制 比较 比 字 符 比 较 简 单 很 
多 ， 所 以 也 就 更 快 。 











慷慨 是 不 明知 的 


使 用 VARCHAR (5) 和 VARCHAR (200) 44%’ hello’ 的 空间 开销 
是 一 样 的 。 那 么 使 用 更 短 的 列 有 什么 优势 吗 ? 


事实 证 明 有 很 大 的 优势 。 更 长 的 列 会 消耗 更 多 的 内 存 ， 因 为 


MySQL 通 常会 分 配 固定 大 小 的 内 存 块 来 保存 内 部 值 。 尤 其 是 使 用 内 存 
临时 表 进 行 排序 或 操作 时 会 特别 糟 薰 。 在 利用 磁盘 临时 表 进 行 排序 时 
tL, |] FEAR HE 


所 以 最 好 的 策略 是 只 分 配 真正 需要 的 空间 。 





BLOB 和 TEXT 类 型 





BLOB 和 TEXT 都 是 为 存储 很 大 的 数据 而 设计 的 字符 串 数 据 类 型 ， 分 别 
采用 二 进 制 和 字符 方式 存储 。 





实际 上 ， 它 们 分 别 属于 两 组 不 同 的 数据 类 型 家 族 : 字符 类 型 是 
TINYTEXT, SMALLTEXT, TEXT, MEDIUMTEXT, LONGTEXT; 对 应 的 二 进 制 
类 型 是 TINYBLOB，SMALLBLOB，BLOB，MEDIUMBLOB，LONGBLOB。BLOB 
是 SMALLBLOB 的 同义词 ，TEXT 是 SMALLTEXT 的 同义词 。 


与 其 他 类 型 不 同 ，MySQL 把 每 个 BLOB 和 TEXT 值 当 作 一 个 独立 的 对 
象 处 理 。 存 储 引 区 在 存储 时 通常 会 做 特殊 处 理 。 当 BLOB 和 TEXT 值 太 大 
时 ，InnoDB 会 使 用 专门 的 “外 部 ”存储 区 域 来 进行 存储 ， 此 时 每 个 值 在 行 
内 需要 1 一 4 个 字 节 存储 一 个 指针 ， 然 后 在 外 部 存储 区 域 存储 实际 的 值 。 


BLOB 和 TEXT 家 族 之 间 仅 有 的 不 同 是 BLOB 类 型 存储 的 是 二 进 制 数据 ， 
没有 排序 规则 或 字符 集 ， 而 TEXT 类 型 有 字符 集 和 排序 规则 。 


MySQL 对 BLOB 和 TEXT 列 进行 排序 与 其 他 类 型 是 不 同 的 : 它 只 对 每 
个 列 的 最 前 max_sort_length 字 节 而 不 是 整个 字符 串 做 排序 。 如 果 只 需 
要 排序 前 面 一 小 部 分 字符 ， 则 可 以 减 小 max_sort_length 的 配置 ， 或 者 
使 用 ORDER BY SUSTRING (column, length) 。 


MySQL 不 能 将 BLOB 和 TEXT 列 全 部 长 度 的 字符 串 进行 索引 ， 也 不 能 
使 用 这 些 索 引 消除 排序 。 (关于 这 个 主题 下 一 章 会 有 更 多 的 信息 。) 














磁盘 临时 表 和 文件 排序 


因为 Memory 引 擎 不 支持 BLOB 和 TEXT 类 型 ， 所 以 ， 如 果 查 询 使 用 了 
BLOB 或 TEXT 列 并 且 需 要 使 用 隐 式 临时 表 ， 将 不 得 不 使 用 My1SAM 磁 盘 临 
时 表 ， 即 使 只 有 几 行 数据 也 是 如 此 (Percona Server aMemory 5|% & 
持 BLOB 和 TEXT 类 型 ， 但 直到 本 书写 作 之 际 ， 同 样 的 场景 下 还 是 需要 使 
用 磁盘 临时 表 ) 。 


这 会 导致 严重 的 性 能 开销 。 即 使 配置 MySQL 将 临时 表 存 储 在 内 存 
块 设备 上 (RAM Disk) ， 依 然 需要 许多 昂贵 的 系统 调用 。 


最 好 的 解决 方案 是 尽量 避免 使 用 BLOB 和 TEXT 类 型 。 如 果实 在 无 法 
避免 ， 有 一 个 技巧 是 在 所 有 用 到 BLOB 字 段 的 地 方 都 使 用 
SUBSTRING (column, length) 将 列 值 转换 为 字符 串 〈 在 ORDER BYŤ 
名 中 也 适用 ) , 这样 就 可 以 使 用 内 存 临 时 表 了 。 但 是 要 确保 截取 的 子 
字符 串 足 够 短 ， 不 会 使 临时 表 的 大 小 超过 max_heap_table size 


或 tmp_table _size， 超 过 以 后 MySQL 会 将 内 存 临 时 表 转 换 为 My1SAM 磁 
盘 临 时 表 。 


最 坏 情 况 下 的 长 度 分 配对 于 排序 的 时 候 也 是 一 样 的 ， 所 以 这 一 招 
对 于 内 存 中 创建 大 临时 表 和 文件 排序 ， 以 及 在 磁盘 上 创建 大 临时 表 和 
文件 排序 这 两 种 情况 都 很 有 帮助 。 


例如 ,假设 有 一 个 1000 万 行 的 表 ， 占 用 几 个 GB 的 磁盘 空间 。 其 中 
有 一 个 utf8 字 符 集 的 VARCHAR (1000) 列 。 每 个 字符 最 多 使 用 3 个 字 
节 ， 最 坏 情况 下 需要 3000 字 节 的 空间 。 如 果 在 ORDER ”BY 中 用 到 这 个 
列 ， 并 且 查 询 扫描 整个 表 ， 为 了 排序 就 需要 超过 30GB 的 临时 表 。 


如 果 EXPLAIN 执 行 计划 的 Extra 列 包含 ” Using temporary”, M 
说 明 这 个 查询 使 用 了 隐 式 临时 表 。 





使 用 枚 举 CENUM) 代替 字符 串 类 型 


有 时 候 可 以 使 用 枚 举 列 代 丛 常 用 的 字符 串 类 型 。 枚 举 列 可 以 把 一 些 
不 重复 的 字符 串 存 储 成 一 个 预定 义 的 集合 。MySQL 在 存储 枚 举 时 非常 
紧 竣 ， 会 根据 列表 值 的 数量 压缩 到 一 个 或 者 两 个 字 节 中 。MySQL 在 内 
部 会 将 每 个 值 在 列表 中 的 位 置 保存 为 整数 ， 并 且 在 表 的 .frm 文 件 中 保 
存 “ 数 字 - 字 符 串 ” 映 财 关系 的 “查找 表 。 下 面 有 一 个 例子 : 








mysql> CREATE TABLE enum test( 
-> e ENUM ('fish', ‘apple', 'dog') NOT NULL 
-> ); 


mysql> INSERT INTO enum_test(e) VALUES('fish'), ('dog'), (‘ap 





这 三 行 数据 实际 存储 为 整数 ， 而 不 是 字符 串 。 可 以 通过 在 数字 上 下 
文 环境 检索 看 到 这 个 双重 属性 : 


mysql> gr e + 0 FROM enum test; 





如 果 使 用 数字 作为 ENUM 枚 举 常 量 ， 这 种 双重 性 很 容易 导致 混乱 ， 例 
WENUM ('1', '2','3') 。 建 议 尽量 避免 这 么 做 。 





为 外 一 个 让 人 吃惊 的 地 方 是 ， 枚 举 字段 是 按照 内 部 存储 的 整数 而 不 
是 定义 的 字符 串 进 行 排序 的 : 


npea oe e FROM enum_test ORDER BY e; 








一 种 绕 过 这 种 限制 的 方式 是 按照 需要 的 顺序 来 定义 枚 举 列 。 男 外 也 
可 以 在 查询 中 使 用 FIELD () 函数 显 式 地 指定 排序 顺序 ， 但 这 会 导致 
MySQL 无 法 利用 索引 消除 排序 。 


jd — e FROM enum test ORDER BY FIELD(e, ‘apple’, ‘dog’, 'fish'); 


| apple | 
| dog | 
| fish | 


如 果 在 定义 时 就 是 按照 字母 的 顺 夺 ， 束 没有 必要 这 么 做 了 。 


枚 举 最 不 好 的 地 方 是 ， 字 符 串 列表 是 固定 的 ， 添 加 或 删除 字符 串 必 


须 使 用 ALTER ” TABLE。 因此， 对 于 一 系列 未 来 可 能 会 改变 的 字符 串 ， 使 
用 枚 举 不 是 一 个 好 主意 ， 除 非 能 接受 只 在 列表 末尾 添加 元 素 ， 这 样 在 
MySQL 5.1 中 就 可 以 不 用 重建 整个 表 来 完成 修改 。 








由 于 MySQL 把 每 个 枚 举 值 保 存 为 整数 ， 并 且 必 须 进 行 查 找 才 能 转 
换 为 字符 串 ， 所 以 枚 举 列 有 一 些 开 销 。 通 常 枚 举 的 列表 都 比较 小 ， 所 以 
开销 还 可 以 控制 ， 但 也 不 能 保证 一 直 如 此 。 在 特定 情况 下 ， 把 
CHARAVARCHAR 列 与 枚 举 列 进行 关联 可 能 会 比 直 接 关 联 CHARAVARCHAR 列 更 


慢 。 





为 了 说 明 这 个 情况 ， 我 们 对 一 个 应 用 中 的 一 张 表 进行 了 基准 测试 ， 
看 看 在 MySQL 中 执行 上 面 说 的 关联 的 速度 如 何 。 该 表 有 一 个 很 大 的 主 
键 : 





CREATE TABLE webservicecalls ( 
day date NOT NULL, 
account smallint NOT NULL, 
service varchar(10) NOT NULL, 
method varchar(50) NOT NULL, 
calls int NOT NULL, 
items int NOT NULL, 
time float NOT NULL, 
cost decimal(9,5) NOT NULL, 
updated datetime, 
PRIMARY KEY (day, account, service, method) 


) ENGINE=InnoDB; 








这 个 表 有 11 万 行 数据 ， 只 有 10MB 大 小 ， 所 以 可 以 完全 载 入 内 


存 。service 列 包含 了 5 个 不 同 的 值 ， 平 均 长 度 为 4 个 字符 ，method 列 包 
SI71 Mea, ~EIKEA20T +7. 


我 们 复制 一 下 这 个 表 ， 但 是 把 service 和 method 字 段 换 成 枚 举 类 
型 ， 表 结构 如 下 : 


CREATE TABLE webservicecalls enum ( 
. omitted ... 
service ENUM(...values omitted...) NOT NULL, 
method ENUM(...values omitted...) NOT NULL, 
. omitted ... 


) ENGINE=InnoDB; 





然后 我 们 用 主键 列 关 联 这 两 个 表 ， 下 面 是 所 使 用 的 查询 语句 : 


mysql> SELECT SQL_NO_CACHE COUNT(*) 
-> FROM webservicecalls 


-> JOIN webservicecalls USING(day, account, service, meth 


我 们 用 VARVHAR 和 ENUM 分 别 测试 了 这 个 语句 ， 结 果 如 表 4-1 所 
ZN o 


#4-1: 连接 VARCHAR 和 ENUM 列 的 速度 





测试 QPS 


VARCHAR 关联 VARCHAR 


ENUM 关联 VARCHAR 1.8 


六 OO | 


从 上 面 的 结果 可 以 看 到 ， 当 把 列 都 转换 成 ENUM 以 后 ， 关 联 变 得 很 
快 。 但 是 当 VARCHAR 列 和 ENUM 列 进行 关联 时 则 慢 很 多 。 在 本 例 中 ， 如 果 
不 是 必须 和 VARCHAR 列 进行 关联 ， 那 么 转换 这 些 列 为 ENUM 就 是 个 好 主 
意 。 这 是 一 个 通用 的 设计 实践 ， 在 “查找 表 ” 时 采用 整数 主键 而 避免 采用 
基于 字符 串 的 值 进 行 关联 。 

















然而 ， 转 换 列 为 枚 举 型 还 有 另 一 个 好 处 。 根 据 SHOW TABLE STATUS 
命令 输出 结果 中 Data_length 列 的 值 ， 把 这 两 列 转 换 为 ENUM 可 以 让 表 的 
大 小 缩小 13。 在 某 些 情况 下 ， 即 使 可 能 出 现 ENUM 和 VARCHAR 进 行 关 联 的 
情况 ， 这 也 是 值得 的 名。 同样 ， 转 换 后 主键 也 只 有 原来 的 一 半 大 小 了 。 
因为 这 是 InnoDB 表 ， 如 果 表 上 有 其 他 索引 ， 减 小 主键 大 小 会 使 非 主键 
索引 也 变 得 更 小 。 稍 后 再 解释 这 个 问题 。 


4.1.4 日 期 和 时 间 次 型 


MySQL 可 以 使 用 许多 类 型 来 保存 日 期 和 时 间 值 ， 例 如 YEAR 和 
DATE。MySQL 能 存储 的 最 小 时 间 粒 度 为 秒 (MariaDB 支 持 微 秒 级 别 的 时 
间 类 型 ) 。 但 是 MySQL 也 可 以 使 用 微 秒 级 的 粒度 进行 临时 运算 ， 我 们 
会 展示 怎么 绕 开 这 种 存储 限制 。 








大 部 分 时 间 类 型 都 没有 替代 品 ， 因 此 没有 什么 是 最 佳 选择 的 问题 。 
唯一 的 问题 是 保存 日 期 和 时 间 的 时 候 需 要 做 什么 。MySQL 提 供 两 种 相 
似 的 日 期 类 型 : DATETIME 和 TIMESTAMP。 对 于 很 多 应 用 程序 ， 它 们 都 能 
工作 但 是 在 某 些 场景 ;一 个 比 男 一 个 工作 得 好 。 让 我 们 来 看 一 下 。 





DATETIME 


这 个 类 型 能 保存 大 范围 的 值 ， 从 1001 年 到 9999 年 ， 精 度 为 秒 。 
它 把 日 期 和 时 间 封 装 到 格式 为 YYYYMMDDHHMMSS 的 整数 中 ， 
与 时 区 无 关 。 使 用 8 个 字 节 的 存储 空间 。 





默认 情况 下 ，MySQL 以 一 种 可 排序 的 、 无 歧义 的 格式 显 
示 DATETIME 值 ， 例 如 “2008-01-16 22:37:08”。 这 是 ANSI 标 准 定义 的 
日 期 和 时 间 表 示 方 法 。 


TIMESTAMP 





就 像 它 的 名 字 一 样 ，TIMETAMP 类 型 保存 了 从 1970 年 1 月 1 日 午夜 
《格林 尼 治 标准 时 间 ) 以 来 的 秒 数 ， 它 和 UNIX 时 间 戳 相 
同 。TIMESTAMP 只 使 用 4 个 字 节 的 存储 空间 ， 因 此 它 的 范围 比 
DATETIME 小 得 多 : 只 能 表示 从 1970 年 到 2038 年 。MySQL 提 供 了 
FROM_UNIXTIME () 函数 把 Unix 时 间 戳 转换 为 日 期 ， 并 提供 了 
UNIX_TIMESTAMP () 函数 把 日 期 转换 为 Unix 时 间 戳 。 





MySQL 4.1 以 及 更 新 的 版 本 按照 DATETIME 的 方式 格式 
化 TIMESTAMP 的 值 ， 但 是 MySQL ”4.0 以 及 更 老 的 版 本 不 会 在 各 个 部 
分 之 间 显 示 任 何 标点 符号 。 这 仅仅 是 显示 格式 上 的 区 
别 ，TIMESTAMP 的 存储 格式 在 各 个 版 本 都 是 一 样 的 。 





TIMESTAMP 显 示 的 值 也 依赖 于 时 区 。MySQL 服 务 器 、 操 作 系 
统 ， 以 及 客户 端 连 接 都 有 时 区 设置 。 


因此 ， 存 储 值 为 0 的 TIMESTAMP 在 美国 东部 时 区 显示 为 “1969-12- 
31 19:00:00”， 与 格林 尼 治 时 间 差 5 个 小 时 。 有 必要 强调 一 下 这 个 区 


别 : 如 果 在 多 个 时 区 存储 或 访问 数据 ，TIMESTAMP 和 DATETIME 的 行 
为 将 很 不 一 样 。 前 者 提供 的 值 与 时 区 有 关系 ， 后 者 则 保留 文本 表示 
的 日 期 和 时 间 。 


TIMESTAMP 也 有 DATETIME 没 有 的 特殊 属性 。 默 认 情 况 下 ， 如 果 
插入 时 没有 指定 第 一 个 TIMESTAMP 列 的 值 ，MySQL 则 设置 这 个 列 的 
值 为 当前 时 间 4。 在 插入 一 行 记 录 时 ，MySQL 默 认 也 会 更 新 第 一 
个 TIMESTAMP 列 的 值 〈 除 非 在 UPDATE 语 句 中 明确 指定 了 值 ) 。 你 可 
以 配置 任何 TIMESTAMP 列 的 插入 和 更 新 行为 。 最 后 ，TIMESTAMP 列 默 
认为 NOT NULL， 这 也 和 其 他 的 数据 类 型 不 一 样 。 


除了 特殊 行为 之 外 ， 通 常 也 应 该 尽量 使 用 TIMESTAMP， 因 为 它 比 
DATETIME 空 间 效率 更 高 。 有 时 候 人 们 会 将 Unix 时 间 截 存储 为 整数 值 ， 但 
这 不 会 带 来 任何 收益 。 用 整数 保存 时 间 截 的 格式 通常 不 方便 处 理 ， 所 以 
我 们 不 推荐 这 样 做 。 








如 果 需 要 存储 比 秒 更 小 粒度 的 日 期 和 时 间 值 怎么 办 ? MySQL H Bil 
没有 提供 合适 的 数据 类 型 ， 但 是 可 以 使 用 目 己 的 存储 格式 : 可 以 使 
用 BI1GINT 类 型 存储 微 秒 级 别 的 时 间 截 ， 或 者 使 用 DOUBLE 存 储 秒 之 后 的 小 
数 部 分 。 这 两 种 方式 都 可 以 ， 或 者 也 可 以 使 用 MariaDB 符 代 MySQL。 


4.1.5 ”位 数据 类 型 


MySQL 有 少数 几 种 存储 类 型 使 用 紧凑 的 位 存储 数据 。 所 有 这 些 位 
类 型 ， 不 管 展 层 存储 格式 和 处 理 方式 如 何 ， 从 技术 上 来 说 都 是 字符 串 炎 


型 | 


=e 


BIT 





在 MySQL ”5.0 之 前 ，BIT 是 TINYINT 的 同义词 。 但 是 在 MySQL 
5.0 以 及 更 新 版 本 ， 这 是 一 个 特性 完全 不 同 的 数据 类 型 。 下 面 我 们 
将 讨论 BIT 类 型 新 的 行为 特性 。 


可 以 使 用 BIT 列 在 一 列 中 存储 一 个 或 多 个 true/false 值 。BIT (1) 定 
义 一 个 包含 单个 位 的 字段 ，BIT (2) 存储 2 个 位 ， 依 此 类 推 。BIT 列 的 最 
大 长 度 是 64 个 位 。 


BIT 的 行为 因 存 储 引 擎 而 异 。MVyISAM 会 打包 存储 所 有 的 BIT 
列 ， 所 以 17 个 单独 的 BIT 列 只 需要 17 个 位 存储 (假设 没有 可 为 NULL 
的 列 ) ， 这 样 MyISAM 只 使 用 3 个 字 节 就 能 存储 这 17 个 BIT 列 。 其 他 
存储 引擎 例如 Memory 和 InnoDB， 为 每 个 BIT 列 使 用 一 个 足够 存储 的 
最 小 整数 类 型 来 存放 ， 所 以 不 能 节省 存储 空间 。 


MySQL 把 BIT 当 作 字符 串 类 型 ， 而 不 是 数字 类 型 。 当 检索 
BIT (1) 的 值 时 ， 结 果 是 一 个 包含 二 进 制 0 或 1 值 的 字符 串 ， 而 不 是 
ASCII 码 的 “0” 或 “1”。 然 而 ， 在 数字 上 下 文 的 场景 中 检索 时 ， 结 果 
将 是 位 字符 串 转 换 成 的 数字 。 如 果 需 要 和 另外 的 值 比较 结果 ， 一 定 
要 记得 这 一 点 。 例 如 ， 如 果 存 储 一 个 值 b 00111001' (二 进 制 值 等 
F57) 到 BIT (8) 的 列 并 且 检 索 它 ， 得 到 的 内 容 是 字符 码 为 57 的 字 
符 串 。 也 就 是 说 得 到 ASCII 码 为 57 的 字符 “9”。 但 是 在 数字 上 下 文 场 
景 中 ， 得 到 的 是 数字 57: 





mysql> CREATE TABLE bittest(a bit(8)); 

mysql> INSERT INTO bittest VALUES(b'00111001' ) ; 
mysql> SELECT a, a + 0 FROM bittest; 

+------ +------- 十 


这 是 相当 令 人 费解 的 ， 所 以 我 们 认为 应 该 谨 愤 使 用 BIT 类 型 。 
对 于 大 部 分 应 用 ， 最 好 避免 使 用 这 种 类 型 。 





如 果 想 在 一 个 bit 的 存储 空间 中 存储 一 个 true/false 值 ， 男 一 个 方 
法 是 创建 一 个 可 以 为 空 的 CHAR (0) 列 。 该 列 可 以 保存 空 值 
(NULL) 或 者 长 度 为 零 的 字符 串 〈( 空 字符 串 )。 


SET 








如 果 需 要 保存 很 多 true/false 值 ， 可 以 考虑 合并 这 些 列 到 一 
个 SET 数据 类 型 ， 它 在 MySQL 内 部 是 以 一 系列 打包 的 位 的 集合 来 表 
示 的 。 这 样 就 有 效 地 利用 了 存储 空间 ， 并 且 MySQL 有 像 
FIND_IN_SET () 和 FIELD 0 这样 的 函数 ， 方 便 地 在 查询 中 使 用 。 它 的 
主要 缺点 是 改变 列 的 定义 的 代价 较 高 : 需要 ALTER TABLE， 这 对 大 
表 来 说 是 非常 昂贵 的 操作 (但 是 本 章 的 后 面 给 出 了 解决 办 法 ) 。 一 
般 来 说 ， 也 无 法 在 SET 列 上 通过 索引 查找 。 














在 整数 列 上 进行 按 位 操作 


一 种 蔡 代 SET 的 方式 是 使 用 一 个 整数 包 闭 一 系列 的 位 。 例 如 ， 
可 以 把 8 个 位 包装 到 一 个 TINYINT 中 ， 并 且 按 位 操作 来 使 用 。 可 以 在 
应 用 中 为 每 个 位 定义 名 称 常量 来 简化 这 个 工作 。 








比 起 SET， 这 种 办 法 主要 的 好 处 在 于 可 以 不 使 用 ALTER TABLE 改 





变 字段 代表 的 “ 枚 举 ” 值 ， 缺 点 是 查询 语 句 更 难 写 ， 并 且 更 难 理 解 
《 当 第 5 个 bit 位 被 设置 时 是 什么 意思 ? ) 。 一 些 人 非常 适应 这 种 方 
式 ， 也 有 一 些 人 不 适应 ， 所 以 是 否 采 用 这 种 技术 取决 于 个 人 的 偏 
好 。 


一 个 包装 位 的 应 用 的 例子 是 保存 权限 的 访问 控制 列表 (ACL) 。 
个 位 或 者 SET 元 素 代 表 一 个 值 ， 例 如 CAN_READ、CAN_WRITE， 或 
者 CAN_DELETE。 如 果 使 用 SET 列 ， 可 以 让 MySQL 在 列 定 义 里 存储 位 到 值 
的 映射 关系 ; 如果 使 用 整数 列 ， 则 可 以 在 应 用 代码 里 存储 这 个 对 应 关 
系 。 这 是 使 用 SET 列 时 的 查询 : 


mysql> CREATE TABLE acl ( 
-> perms SET('CAN_READ', 'CAN WRITE', 'CAN DELETE’) NOT NULL 


re ); 
mysql> INSERT INTO acl(perms) VALUES ('CAN READ,CAN DELETE'); 
mysql> SELECT perms FROM acl WHERE FIND IN SET('AN READ', perms); 
+ 


| perms 
+--------------------- 十 
| CAN_READ,CAN DELETE 


如 末 使 用 整数 来 存储 ， 则 可 以 参考 下 面 的 例子 : 


mysql> SET @CAN READ := 1 << 0, 

-> @CAN WRITE := 1 << 1, 

-> @CAN_DELETE := 1 << 2; 
mysql> CREATE TABLE acl ( 

-> perms TINYINT UNSIGNED NOT NULL DEFAULT 0 

>); 
mysql> INSERT INTO acl(perms) VALUES(@CAN_READ + @CAN_DELETE); 
mysql> SELECT perms FROM acl WHERE perms & @CAN READ; 

+ 


| perms 


这 里 我 们 使 用 MySQL 变 量 来 定义 值 ， 但 是 也 可 以 在 代码 里 使 用 党 
ERRE. 


4.1.6 ”选择 标识 从 (identifier) 





为 标识 列 (identifier column) 选择 合适 的 数据 类 型 非常 重要 。 一 般 
来 说 更 有 可 能 用 标识 列 与 其 他 值 进 行 比较 〈 例 如 ， 在 关联 操作 中 ) ， 或 
者 通过 标识 列 寻 找 其 他 列 。 标 识 列 也 可 能 在 另外 的 表 中 作为 外 键 使 用 ， 
所 以 为 标识 列 选择 数据 类 型 时 ， 应 该 选择 跟 关 联 表 中 的 对 应 列 一 样 的 类 
型 “正如 我 们 在 本 章 早 些 时 候 所 论述 的 一 样 ， 在 相关 的 表 中 使 用 相同 的 
数据 类 型 是 个 好 主意， 因为 这 些 列 很 可 能 在 关联 中 使 用 ) 。 








当选 择 标识 列 的 类 型 时 ， 不 仅仅 需要 考虑 存储 类 型 ， 还 需要 考虑 
MySQL 对 这 种 类 型 怎么 执行 计算 和 比较 。 例 如 ，MySQL 在 内 部 使 用 整 
数 存 储 ENUM 和 SET 类 型 ， 然 后 在 做 比较 操作 时 转换 为 字符 串 。 


一 旦 选 定 了 一 种 类 型 ， 要 确保 在 所 有 关联 表 中 都 使 用 同样 的 类 型 。 
类 型 之 间 需 要 精确 匹配 ， 包 括 像 UNS1GNED 这 样 的 属性 Gh。 混 用 不 同 数 
据 类 型 可 能 导致 性 能 问题 ， 即 使 没有 性 能 影响 ， 在 比较 操作 时 隐 式 类 型 
转换 也 可 能 导致 很 难 发 现 的 错误 。 这 种 错误 可 能 会 很 久 以 后 才 突 然 出 
现 ， 那 时 候 可 能 都 已 经 忘记 是 在 比较 不 同 的 数据 类 型 。 








在 可 以 满足 值 的 范围 的 需求 ， 并 且 预 留 未 来 增长 空间 的 前 提 下 ， 应 
该 选择 最 小 的 数据 类 型 。 例 如 有 一 个 state_id 列 存储 美国 各 州 的 名 
字 4， 就 不 需要 几 千 或 几 百 万 个 值 ， 所 以 不 需要 使 用 INT。TINYINT 足 
够 存储 ， 而 且 比 INT 少 了 3 个 字 节 。 如 果 用 这 个 值 作为 其 他 表 的 外 键 ，3 
个 字 节 可 能 导致 很 大 的 性 能 差异 。 下 面 是 一 些小 技巧 。 


整数 类 型 





整数 通常 是 标识 列 最 好 的 选择 ， 因 为 它们 很 快 并 且 可 以 使 


FHAUTO_ INCREMENT. 
ENUM 和 SET 类 型 


对 于 标识 列 来 说 ，EMUM 和 SET 类 型 通常 是 一 个 糟糕 的 选择 ， 尽 
管 对 某 些 只 包含 固定 状态 或 者 类 型 的 静态 “定义 表 ” 来 说 可 能 是 没有 
问题 的 。ENUM 和 SET 列 适合 存储 固定 信息 ， 例 如 有 序 的 状态 、 产 品 
类 型 、 人 的 性 别 。 











举 个 例子 ， 如 果 使 用 枚 举 字段 来 定义 产品 类 型 ， 也 许 会 设计 一 
张 以 这 个 枚 举 字 段 为 主键 的 得 找 表 《〈 可 以 在 碍 找 表 中 增加 一 些 列 来 
保存 描述 性 质 的 文本 ， 这 样 束 能 够 生成 一 个 术语 表 ， 或 者 为 网 站 的 
下 拉 羔 单 提供 有 意义 的 标签 ) 。 这 时 ， 使 用 枚 举 类 型 作为 标识 列 是 
可 行 的 ， 但 是 大 部 分 情况 下 都 要 避免 这 么 做 。 





字符 串 类 型 


如 宁可 能 ， 应 该 避免 使 用 字符 串 类 型 作为 标识 列 ， 因 为 它们 很 
消耗 空间 ， 并 且 通 第 比 数字 类 型 慢 。 尤 其 是 在 MyISAM 表 里 使 用 字 
符 串 作为 标识 列 时 要 特别 小 心 。MyYISAM 默 认 对 字符 串 使 用 压缩 索 
引 ， 这 会 导致 得 询 慢 得 多 。 在 我 们 的 测试 中 ， 我 们 注意 到 最 多 有 6 
倍 的 性 能 下 降 。 











对 于 完全 “随机 ”的 字符 串 也 需要 多 加 注意 ， 例 如 MD5 QC) 、 
SHA1 () 或 者 UU1D O 产生 的 字符 串 。 这 些 函 数 生 成 的 新 值 会 任意 分 布 
在 很 大 的 空间 内 ， 这 会 导致 INSERT 以 及 一 些 SELECT 语句 变 得 很 


慢 13), 


。 因为 插入 值 会 随机 地 写 到 索引 的 不 同位 置 ， 所 以 使 得 INSERT 语 句 更 








E ASST. MRIS, URI TRETE ETE 
FAIR. RAL APSA BS INN. 
。SELECT 语 名 会 变 得 更 慢 ， 因 为 逻辑 上 相 邻 的 行 会 分 布 在 磁盘 和 内 存 
的 不 同 地 方 。 
随机 值 导 致 缓存 对 所 有 类 型 的 查询 语句 效果 都 很 差 ， 因 为 会 使 得 组 
存 赖 以 工作 的 访问 局 部 性 原理 失效 。 如 果 整 个 数据 集 都 一 样 

的 < 热 "， 那 么 缓存 任何 一 部 分 特定 数据 到 内 存 都 没有 好 处 ， 如 果 工 
作 集 比 内 存 大 ， 缓 存 将 会 有 很 多 刷新 和 不 命中 。 














如 果 存 储 UUID 值 ， 则 应 该 移 除 “-” 符 号 ; 或 者 更 好 的 做 法 是 ， 
用 UNHEX () 函数 转换 UUID 值 为 16 字 节 的 数字 ， 并 且 存 储 在 一 个 
BINARY (16) 列 中 。 检 索 时 可 以 通过 HEX 0 函数 来 格式 化 为 十 六 进 制 格 


Ie 
UUID () 生成 的 值 与 加 密 散 列 函 数 例 如 SHA1 0 生成 的 值 有 不 同 的 特 











征 : UUID 值 虽然 分 布 也 不 均匀 ， 但 还 是 有 一 定 顺序 的 。 尺 管 如 此 ， 但 
还 是 不 如 递增 的 整数 好 用 。 





当心 目 动 生成 的 Schema 


我 们 已 经 介绍 了 大 部 分 重要 数据 类 型 的 考虑 〈 有 些 会 严重 影响 性 
能 ， 有 些 则 影响 较 小 ) ， 但 是 我 们 还 没有 提 到 自动 生成 的 schema 设 计 
AS ZH 

写 得 很 烂 的 schema 迁 移 程 序 ， 或 者 自动 生成 schema 的 程序 ， 都 会 


导致 严重 的 性 能 问题 。 有 些 程序 存储 任何 东西 都 会 使 用 很 大 的 
VARCHAR 列 ， 或 者 对 需要 在 关联 时 比较 的 列 使 用 不 同 的 数据 类 型 。 如 


果 schema 是 自动 生成 的 ， 一 定 要 反复 检查 确认 没有 问题 。 


对 象 关 系 映 射 (ORM) 系统 (以 及 使 用 它们 的 “框架 ”) 是 另 一 
种 常见 的 性 能 蛋 梦 。 一 些 ORM 系 统 会 存储 任意 类 型 的 数据 到 任意 类 型 
的 后 端 数 据 存 储 中 ， 这 通常 意味 着 其 没有 设计 使 用 更 优 的 数据 类 型 来 
存储 。 有 时 会 为 每 个 对 象 的 每 个 属性 使 用 单独 的 行 ， 甚 至 使 用 基于 时 
间 惟 的 版 本 控制 ， 导 致 单 个 属性 会 有 多 个 版 本 存在 。 


这 种 设计 对 开发 者 很 有 吸引 力 ， 因 为 这 使 得 他 们 可 以 用 面向 对 象 
的 方式 工作 ， 不 需要 考虑 数据 是 怎么 存储 的 。 然 而 ，“ 对 开发 者 隐藏 
复杂 性 ”的 应 用 通常 不 能 很 好 地 扩展 。 我 们 建议 在 用 性 能 交换 开发 人 
员 的 效率 之 前 仔细 考虑 ， 并 且 总 是 在 真实 大 小 的 数据 集 上 做 测试 ， 这 
样 就 不 会 太 晚 才 发 现 性 能 问题 。 





4.1.7 ”特殊 类 型 数据 


茶 些 类 型 的 数据 并 不 直接 与 内 置 类 型 一 怪 。 低 于 秒 级 精度 的 时 间 截 
就 是 一 个 例子 ， 本 章 的 前 面部 分 也 演示 过 存储 此 类 数据 的 一 些 选项 。 


男 一 个 例子 是 一 个 IPv4 地 址 。 人 们 经 常 使 用 VARCHAR (15) 列 来 存 
储 IP 地 址 。 然 而 ， 它 们 实际 上 是 32 位 无 符号 整数 ， 不 是 字符 串 。 用 小 数 
点 将 地 址 分 成 四 段 的 表示 方法 只 是 为 了 让 人 们 阅读 容易 。 所 以 应 该 用 无 


符号 整数 存储 IP 地 址 。MySQL 提 供 INET_ATON () 和 1NET_NTOA 0 函数 在 这 
两 种 表示 方法 之 间 转 换 。 


4.2 MySQL schema 设 计 中 的 陷阱 


虽然 有 一 些 普 过 的 好 或 坏 的 设计 原则 ， 但 也 有 一 些 问题 是 由 
MySQL 的 实现 机 制导 致 的 ， 这 意味 着 有 可 能 犯 一 些 只 在 MYSQL 下 发 生 
的 特定 错误 。 本 节 我 们 讨论 设计 MySQL 的 schema 的 问题 。 这 也 许 会 帮 
助 你 避免 这 些 错误 ， 并 且 选 择 在 MySQL 特 定 实现 下 工作 得 更 好 的 替代 
方案 。 








太 多 的 列 


MySQL 的 存储 引擎 API 工 作 时 需要 在 服务 器 层 和 存储 引擎 层 之 
间 通 过 行 缓冲 格式 拷贝 数据 ， 然 后 在 服务 器 层 将 缓冲 内 容 解 码 成 各 
个 列 。 从 行 缓冲 中 将 编码 过 的 列 转 换 成 行 数据 结构 的 操作 代价 是 非 
党 高 的 。MyISAM 的 定 长 行 结构 实际 上 与 服务 器 层 的 行 结构 正好 匹 
配 ， 所 以 不 需要 转换 。 然 而 ，MyISAM 的 变 长 行 结构 和 InnoDB 的 行 
结构 则 总 是 需要 转换 。 转 换 的 代价 依赖 于 列 的 数量 。 当 我 们 研究 一 
个 CPU 占用 非常 高 的 案例 时 ， 发 现 客户 使 用 了 非常 宽 的 表 CAFS 
字段 ，， 然 而 只 有 一 小 部 分 列 会 实际 用 到 ， 这 时 转换 的 代价 就 非常 
高 。 如 果 计 划 使 用 数 千 个 字段 ， 必 须 意识 到 服务 器 的 性 能 运行 特征 
会 有 一 些 不 同 。 





太 多 的 关联 


所 谓 的 “实体 -属性 - 值 ”(EAV) 设计 模式 是 一 个 常见 的 糟糕 设 
计 模 式 ， 尤 其 是 在 MySQL 下 不 能 靠 谱 地 工作 。MySQL 限 制 了 每 个 
关联 操作 最 多 只 能 有 61 张 表 ， 但 是 EAV 数 据 库 需 要 许多 自 关 联 。 我 








们 见 过 不 少 EAV 数 据 库 最 后 超过 了 这 个 限制 。 事 实 上 在 许多 关联 少 
于 61 张 表 的 情况 下 ， 解 析 和 优化 查询 的 代价 也 会 成 为 MySQL 的 问 
题 。 一 个 粗略 的 经 验 法 则 ， 如 果 和 希望 查询 执行 得 快速 且 并 发 性 好 ， 
单个 查询 最 好 在 12 个 表 以 内 做 关联 。 





全 能 的 枚 举 


注意 防止 过 度 使 用 枚 举 ENUM) 。 下 面 是 我 们 见 过 的 一 个 例 
T: 


CREATE TABLE ... ( 


country enum('','0','1','2',...,'31') 


这 种 模式 的 schema 设 计 非 常 凌乱 。 这 么 使 用 枚 举 值 类 型 也 许 在 
任何 支持 枚 举 类 型 的 数据 库 都 是 一 个 有 问题 的 设计 方案 ， 这 里 应 该 
用 整数 作为 外 刍 关 联 到 字典 表 或 者 查找 表 来 查找 具体 值 。 但 是 在 
MySQL 中 ， 当 需要 在 枚 举 列表 中 增加 一 个 新 的 国家 时 就 要 做 一 
次 ALTER TABLE 操 作 。 在 MySQL 5.0 以 及 更 早 的 版 本 中 ALTER TABLE 
是 一 种 阻塞 操作 ; 即使 在 5.1 和 更 新 版 本 中 ， 如 果 不 是 在 列表 的 末 
尾 增加 值 也 会 一 样 需要 ALTER TABLE 〈 我 们 将 展示 一 些 骇 客 式 的 方 
法 来 避免 阻塞 操作 ， 但 是 这 只 是 骇 客 的 玩法 ， 别 轻易 用 在 生产 环境 
中 ) 。 

















变相 的 枚 举 


枚 举 ENUN) 列 允 许 在 列 中 存储 一 组 定义 值 中 的 单个 值 ， 集 合 
CSET) 列 则 允许 在 列 中 存储 一 组 定义 值 中 的 一 个 或 多 个 值 。 有 时 
候 这 可 能 比较 容易 导致 混乱 。 这 是 一 个 例子 : 





CREATE TABLE ... ( 
is_default set ('Y','N') NOT NULL default 'N' 





如 果 这 里 真 和 假 两 种 情况 不 会 同时 出 现 ， 那 么 坚 无 疑问 应 该 使 用 枚 
举 列 代 丛 集合 列 。 


非 此 发 明 (Not Invent Here) 的 NULL 


我 们 之 前 写 了 避免 使 用 NULL 的 好 处 ， 并 且 建 议 尽 可 能 地 考虑 蔡 
代 方 案 。 即 使 需要 存储 一 个 事实 上 的 “ 空 值 ?到 表 中 时 ， 也 不 一 定 非 
得 使 用 NULL。 也 许可 以 使 用 0、 某 个 特殊 值 ， 或 者 空 字 符 串 作为 代 
蔡 。 








但 是 齐 循 这 个 原则 也 不 要 走 极端 。 当 确实 需要 表示 未 知 值 时 也 
不 要 害怕 使 用 NULL。 在 一 些 场景 中 ， 使 用 NULL 可 能 会 比 茶 个 神奇 各 
数 更 好 。 从 特定 类 型 的 值 域 中 选择 一 个 不 可 能 的 值 ， 例 如 用 -1 代表 
一 个 未 知 的 整数 ， 可 能 导致 代码 复杂 很 多 ， 并 容易 引入 bug， 还 可 
能 会 让 事情 变 得 一 团 糟 。 处 理 NULL 确 实 不 容易 ， 但 有 了 时候 会 比 它 的 
BAIRE. 








下 面 是 一 个 我 们 经 常 看 到 的 例子 : 


CREATE TABLE ...( 
dt DATETIME NOT NULL DEFAULT '0000-00-00 00:00:00' 





伪造 的 全 0 值 可 能 导致 很 多 问题 〈 可 以 配置 MySQL 的 SQL_MODE 
来 禁止 不 可 能 的 日 期 ， 对 于 新 应 用 这 是 个 非常 好 的 实践 经 验 ， 它 不 
会 让 创建 的 数据 库 里 充满 不 可 能 的 值 ) 。 值 得 一 提 的 是 ，MySQL 
会 在 索引 中 存储 NULL 值 ， 而 Oracle 则 不 会 。 
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对 于 任何 给 定 的 数据 通 和 都 有 很 多 种 表示 方法 ， 从 完全 的 范式 化 到 
完全 的 反 范 式 化 ， 以 及 两 者 的 折 中 。 在 范式 化 的 数据 库 中 ， 每 个 事实 数 
气 会 出 现 并 且 只 出 现 一 次 。 相 反 ， 在 反 范 式 化 的 数据 库 中 ， 信 息 是 元 余 
的 ， 可 能 会 存储 在 多 个 地 方 。 

















如 果 不 熟 悉 范 式 ， 则 应 该 先 学 习 一 下 。 有 很 多 这 方面 的 不 错 的 书 和 
在 线 资源 ;在 这 里 ， 我 们 只 是 给 出 阅读 本 章 所 需要 的 这 方面 的 简单 介 
绍 。 下 面 以 经 典 的 “ 屠 员 ， 部 门 ， 部 门 领导 ? 的 例子 开始 : 








EMPLOYEE DEPARTMENT HEAD 
Jones Jones 
Sa Sa 
Brown Jones 
Green | Engineering | Smith 


这 个 schema 的 问题 是 修改 数据 时 可 能 发 生 不 一 致 。 假 如 Say Brown 
接任 Accounting 部 门 的 领导 ， 需 要 修改 多 行 数据 来 反映 这 个 变化 ， 这 是 
很 痛 苗 的 事 并 且 容 易 引 入 错误 。 如 果 “Jones” 这 一 行 显示 部 门 的 领导 
跟 “Brown” 这 一 行 的 不 一 样 ， 就 没有 办 法 知道 哪个 是 对 的 。 这 就 像 是 有 
句 老 话说 的 :“ 一 个 人 有 两 块 手表 就 永远 不 知道 时 间 ?。 此 外 ， 这 个 设计 
在 没有 雇员 信息 的 情况 下 就 无 法 表示 一 个 部 门 一 一 如 果 我 们 删除 了 所 有 
Accounting 部 门 的 雇员 ， 我 们 就 失去 了 关于 这 个 部 门 本 里 的 所 有 记录 。 























iar 个 问题 ， 我 们 需要 对 这 个 表 进 行 范式 化 ， 方 式 是 拆 分 雇员 和 部 
。 拆 分 以 后 可 以 用 下 面 两 张 表 分 别 来 存储 雇员 表 : 








EMPLOYEE_NAME DEPARTMENT 


craven 


和 部 门 表 : 





DEPARTMENT HEAD 








这 样 设计 的 两 张 表 符合 第 二 范式 ， 在 很 多 情况 下 做 到 这 一 步 已 经 足 
够 好 了 。 然 而 ， 第 二 范式 只 是 许多 可 能 的 范式 中 的 一 种 。 











全 二 这 个 例子 中 我 们 使 用 人 (Last Name) 作为 主键 ， 因 为 这 是 数据 的 < 自然 标识 "。 从 实 









































践 来 看 ， 无 论 如 何 都 不 应 该 这 么 用 。 这 既 不 能 保证 唯一 性 ， 而 且 用 一 个 很 长 的 字符 串 作 为 主键 


是 很 糟糕 的 主意 。 


4.3.1 JUSTO 























ib 


当 为 性 能 问题 而 寻求 帮助 时 ， 经 常会 修建 议 对 schema 进 行 范 式 化 设 
尤其 是 写 密集 的 场景 。 这 通常 是 个 好 建议 。 因 为 下 面 这 些 原因 ， 苑 





式 化 通常 能 够 带 来 好 处 : 


范式 化 的 更 新 操作 通 第 比 反 范式 化 要 快 。 
当 数 据 较 好 地 范式 化 时 ， 葡 只 有 很 少 或 者 没有 重复 数据 ， 所 以 只 需 


要 修改 更 少 的 数据 。 
范式 化 的 表 通 常 更 小 ， 可 以 更 好 地 放 在 内 存 里 ， 所 以 执行 操作 会 更 
快 。 








很 少 有 多 余 的 数据 意味 着 检索 列表 数据 时 更 少 需要 DISTINCT 或 

者 GROUP ”BY 语句 。 还 是 前 面 的 例子 :在 非 范 式 化 的 结构 中 必须 使 
用 DISTINCT 或 者 GROUP BY 才能 获得 一 份 唯一 的 部 门 列表 ， 但 是 如 果 
HBP] 《DEPARTMENT》 是 一 张 单 独 的 表 ， 则 只 需要 简单 的 查询 这 张 表 
就 行 了 。 





范式 化 设计 的 schema 的 缺点 是 通常 需要 关联 。 稍 微 复 森 一 些 的 查询 


语句 在 符合 范式 的 schema 上 都 可 能 需要 至 少 一 次 关联 ， 也 许 更 多 。 这 不 
但 代价 昂贵 ， 也 可 能 使 一 些 索 引 策略 无 效 。 例 如 ， 范 式 化 可 能 将 列 存放 
在 不 同 的 表 中 ， 而 这 些 列 如 果 在 一 个 表 中 本 可 以 属于 同一 个 索引 。 


4.3.2 Jy shh RAER A 


联 。 


反 范 式 化 的 schema 因 为 所 有 数据 都 在 一 张 表 中 ， 可 以 很 好 地 避免 天 











如 果 不 需 要 关联 表 ， 则 对 大 部 分 查询 最 差 的 情况 一 一 即使 表 没 有 使 


用 索引 一 一 是 全 表 扫 描 。 当 数据 比 内 存 大 时 这 可 能 比 关 联 要 快 得 多 ， 因 


为 这 样 避 免 了 随机 IO4 。 


单独 的 表 也 能 使 用 更 有 效 的 索引 集 略 。 假 设 有 一 个 网 站 ， 人 允许 用 户 
发 送 消 轧 ， 并 且 一 些 用 户 是 付费 用 户 。 现 在 想 查 看 付费 用 户 最 近 的 10 条 
吝 套 。 如 果 是 范式 化 的 结构 并 且 索 引 了 发 送 日 期 字段 published， 这 个 
查询 也 许 看 起 来 像 这 样 : 





mysql> SELECT message_text, user_name 
-> FROM message 
-> INNER JOIN user ON message.user_id=user.id 
-> WHERE user.account_type='premiumv 


-> ORDER BY message.published DESC LIMIT 10; 


要 更 有 效 地 执行 这 个 查询 ，MySQL 需 要 扫描 message 表 的 
published 字 段 的 索引 。 对 于 每 一 行 找到 的 数据 ， 将 需要 到 user 表 里 检 
查 这 个 用 户 是 不 是 付费 用 户 。 如 末 只 有 一 小 部 分 用 户 是 付费 账户 ， 那 么 
这 是 效率 低下 的 做 法 。 











另 一 种 可 能 的 执行 计划 是 从 user 表 开始 ， 选 择 所 有 的 付费 用 户 ， 获 
得 他 们 所 有 的 信息 ， 并 且 排 序 。 但 这 可 能 更 加 糟糕 。 








主要 问题 是 关联 ， 使 得 需要 在 一 个 索引 中 又 排序 又 过 滤 。 如 有 果 采 用 
反 范 式 化 组 织 数 据 ， 将 两 张 表 的 字段 合并 一 下 ， 并 且 增 加 一 个 索引 
(account_type, published) ， 束 可 以 不 通过 关联 写 出 这 个 查询 。 这 
将 非常 高 效 : 





mysql> SELECT message text,user_name 
-> FROM user_messages 


-> WHERE account_type='premium' 


-> ORDER BY published DESC 
-> LIMIT 10; 


4.3.3” 泥 用 汇 式 化 和 及 汇 式 化 
范式 化 和 反 范 式 化 的 schema 各 有 优 劣 ， 怎 么 选择 最 佳 的 设计 ? 


事实 是 ， 完 全 的 范式 化 和 完全 的 反 范 式 化 schema 都 是 实验 室 里 才 有 
的 东西 : 在 真实 世界 中 很 少 会 这 么 极端 地 使 用 。 在 实际 应 用 中 经 党 需要 
混用 ， 可 能 使 用 部 分 范式 化 的 schema、 绥 存 表 ， 以 及 其 他 技巧 。 





最 常见 的 反 范 式 化 数据 的 方法 是 复制 或 者 缓存 ， 在 不 同 的 表 中 存储 
相同 的 特定 列 。 在 MySQL 5.0 和 更 新 版 本 中 ， 可 以 使 用 触发 句 更 新 缓存 
值 ， 这 使 得 实现 这 样 的 方案 变 得 更 简单 。 





在 我 们 的 网 站 实例 中 ， 可 以 在 user 表 和 message 表 中 都 存储 
account_type 字 段 ， 而 不 用 完全 的 反 范 式 化 。 这 避免 了 完全 反 范 式 化 的 
插入 和 删除 问题 ， 因 为 即使 没有 消息 的 时 候 也 绝 不 会 丢失 用 户 的 信息 。 
这 样 也 不 会 把 user_message 表 搞 得 太 大 ， 有 利于 高 效 地 获取 数据 。 











但 是 现在 更 新 用 户 的 账户 类 型 的 操作 代价 就 高 了 ， 因 为 需要 同时 更 
新 两 张 表 。 至 于 这 会 不 会 是 一 个 问题 ， 需 要 考虑 更 新 的 频率 以 及 更 新 的 
时 长 ， 并 和 执行 SELECT 查询 的 频率 进行 比较 。 





另 一 个 从 父 表 元 余 一 些 数据 到 子 表 的 理由 是 排序 的 需要 。 例 如 ， 在 
范式 化 的 schema 里 通过 作者 的 名 字 对 消息 做 排序 的 代价 将 会 非常 高 ， 但 
是 如 条 在 message 表 中 缓存 author_name 字 段 并 且 建 好 索引 ， 则 可 以 非常 
高 效 地 完成 排序 。 








绥 存 衍生 值 也 是 有 用 的 。 如 果 需 要 显示 每 个 用 户 发 了 多 少 消息 〈 像 
很 多 论坛 做 的 ) ， 可 以 每 次 执行 一 个 昂贵 的 子 查 询 来 计算 并 显示 它 ; 也 
可 以 在 user 表 中 建 一 个 num_messages 列 ， 每 当 用 户 发 新 消息 时 更 新 这 个 
值 。 
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有 时 提升 性 能 最 好 的 方法 是 在 同一 张 表 中 保存 衍生 的 元 余数 据 。 然 
而 ， 有 时 也 需要 创建 一 张 完 全 独立 的 汇总 表 或 缓存 表 〈 特 别 是 为 满足 检 
索 的 需求 时 )》 。 如 果 能 容许 少量 的 脏 数据 ， 这 是 非常 好 的 方法 ， 但 是 有 
时 确实 没有 选择 的 余地 《〈 例 如， 需要 避免 复 人 本、 昂贵 的 实时 更 新 操 
人 














术语 “缓存 表 ” 和 “汇总 表 ” 没 有 标准 的 含义 。 我 们 用 术语 “ 绥 存 表 ” 来 
表示 存储 那些 可 以 比较 简单 地 从 schema 其 他 表 获 取 (但 是 每 次 获取 的 速 
度 比较 慢 ) 数据 的 表 例 如， 逻辑 上 克 余 的 数据 》 。 而 术语 “汇总 
表 ” 时 ， 则 保存 的 是 使 用 GROUP ”BY 语句 聚合 数据 的 表 《〈 例 如 ， 数 据 不 是 
a TURIN) 。 也 有 人 使 用 术语 “ 罕 积 表 (Roll-Up Table) ”称呼 这 些 
表 。 因 为 这 些 数 据 被 “累积 ”了 。 





仍然 以 网 站 为 例 ， 假 设 需要 计算 之 前 24 小 时 内 发 送 的 消息 数 。 在 一 
个 很 繁 从 的 网 站 不 可 能 维护 一 个 实时 精确 的 计数 器 。 作 为 蔡 代 方案 ， 可 
以 每 小 时 生成 一 张 汇 总 表 。 这 样 也 许 一 条 简单 的 伍 询 束 可 以 做 到 ， 并 且 
比 实时 维护 计数 器 要 高 效 得 多 。 人 缺点 是 计数 器 并 不 是 100% 精 确 。 








如 果 必 须 获得 过 去 24 小 时 准确 的 消息 发 送 数量 (没有 遗漏 ) ， 有 男 
外 一 种 选择 。 以 每 小 时 汇总 表 为 基础 ， 把 前 23 个 完整 的 小 时 的 统计 表 中 
的 计数 全 部 加 起 来 ， 最 后 再 加 上 开始 阶段 和 结束 阶段 不 完整 的 小 时 内 的 
计数 。 假 设 统计 表 叫 作 msg_per_hr 并 且 这 样 定义 : 





CREATE TABLE msg_per_hr ( 


hr DATETIME NOT NULL, 
cnt INT UNSIGNED NOT NULL, 
PRIMARY KEY(hr) 

); 





可 以 通过 把 下 面 的 三 个 语句 的 结果 加 起 来 ， 得 到 过 去 24 小 时 发 送 消 
四 的 总 数 。 我 们 使 用 LEFT (NOW(), 14) 来 获得 当前 的 日 期 和 时 间 最 接近 
的 小 时 : 


mysql> SELECT SUM(cnt) FROM msg_per_hr 

-> WHERE hr BETWEEN 

-> CONCAT(LEFT(NOW(), 14), '00:00') - INTERVAL 23 HOUR 

-> AND CONCAT(LEFT(NOW(), 14), '00:00') - INTERVAL 1 HO 
mysql> SELECT COUNT(*) FROM message 

-> WHERE posted >= NOW() - INTERVAL 24 HOUR 

-> AND posted < CONCAT(LEFT(NOW(), 14), '00:00') - INTE 
mysql> SELECT COUNT(*) FROM message 

-> WHERE posted >= CONCAT(LEFT(NOW(), 14), '00:00'); 





不 管 是 哪 种 方法 一 一 不 严格 的 计数 或 通过 小 范围 查询 填 满 间 隐 的 严 
格 计数 一 一 部 比 计算 message 表 的 所 有 行 要 有 效 得 多 。 这 是 建立 汇总 表 
的 最 关键 原因 。 实 时 计算 统计 值 是 很 昂 贯 的 操作 ， 因 为 要 么 需要 扫描 表 
中 的 大 部 分 数据 ， 要 么 查询 语句 只 能 在 某 些 特定 的 索引 上 才能 有 效 运 
行 ， 而 这 类 特定 索引 一 般 会 对 UPDATE 操 作 有 影响 ， 所 以 一 般 不 希望 创建 
这 样 的 索引 。 计 算 最 活路 的 用 户 或 者 最 第 见 的 “标签 "是 这 种 操作 的 典型 
例子 。 























缓存 表 则 相反 ， 其 对 优化 搜索 和 检索 查询 语句 很 有 效 。 这 些 查 询 语 


句 经 常 需要 特殊 的 表 和 索引 结构 ， 跟 普通 OLTP 操 作用 的 表 有 些 区 别 。 





例如 ， 可 能 会 需要 很 多 不 同 的 索引 组 合 来 加 速 各 种 类 型 的 查询 。 这 
些 巴 盾 的 需求 有 时 需要 创建 一 张 只 包含 主 表 中 部 分 列 的 缓存 表 。 一 个 有 
用 的 技巧 是 对 绥 存 表 使 用 不 同 的 存储 引擎 。 例 如 ， 如 果 主 表 使 用 
InnoDB， 用 MyISAM 作 为 缓存 表 的 引擎 将 会 得 到 更 小 的 索引 占用 空间 ， 
并 且 可 以 做 全 文 搜索 。 有 时 甚至 想 把 整个 表 导 出 MySQL， 插 入 到 专门 
的 搜索 系统 中 获得 更 高 的 搜索 效率 ， 例 如 Lucene 或 者 Sphinx 搜 索引 擎 。 











在 使 用 缓存 表 和 汇总 表 时 ， 必 须 决 定 是 实时 维护 数据 还 是 定期 重 
建 。 哪 个 更 好 依赖 于 应 用 程序 ， 但 是 定期 重建 并 不 只 是 市 省 资源 ， 也 可 
以 保持 表 不 会 有 很 多 人 碎片， 以 及 有 完全 顺序 组 织 的 索引 (这 会 更 加 局 
BO) a 











“SEY AS ITF HEIN, HEY te ZE PRE BH TEER EI KA H o 
这 就 需要 通过 使 用 “影子 表 ” 来 实现 ,，“ 影 子 表 ” 指 的 是 一 张 在 真实 表 “ 背 
后 ”创建 的 表 。 当 完成 了 建 表 操 作 后 ， 可 以 通过 一 个 原子 的 重 命名 操作 
切换 影子 表 和 原 表 。 人 例如， 如果 需要 重建 ny_summary， 则 可 以 先 创建 
my_summary_new， 然 后 填充 好 数据 ， 最 后 和 真实 表 做 切换 : 




















mysql> DROP TABLE IF EXISTS my_summary_new, my_summary_old; 
mysql> CREATE TABLE my_summary_new LIKE my_summary; 
- populate my_summary_new as desired 


mysql> RENAME TABLE my_summary TO my_summary_old, my_summary_ 


如 果 像 上 面 的 例子 一 样 ， 在 将 my_summary 这 个 名 字 分 配给 新 建 的 表 
之 前 将 原始 的 my_summary 表 重 命名 为 my_summary_ o1d， 束 可 以 在 下 一 次 
重建 之 前 一 直 保 留 旧 版 本 的 数据 。 如 果 新 表 有 问题 ， 则 可 以 很 容易 地 进 








行 快速 回 深 操 作 。 


4.4.1 ”物化 视图 


许多 数据 库 管 理 系统 〈 例 如 Oracle 或 者 微软 SQL Server) 都 提供 了 
一 个 被 称 作物 化 视图 的 功能 。 物 化 视图 实际 上 是 预先 计算 并 且 存 储 在 磁 
盘 上 的 表 ， 可 以 通过 各 种 各 样 的 策略 刷新 和 更 新 。MySQL 并 不 原生 文 
持 物化 视图 《我们 将 在 第 7 章 详细 探讨 文 持 这 种 视图 的 细节 ) 。 然 而 ， 
使 用 Justin Swanhart 的 开源 工具 
Flexviews (http://code.google.com/p/flexviews/) ， 也 可 以 自己 实现 物化 
视图 。Flexviews 比 完全 上 自己 实现 的 解决 方案 要 更 精细 ， 并 且 提 供 了 很 多 
不 错 的 功能 使 得 可 以 更 简单 地 创建 和 维护 物化 视图 。 它 由 下 面 这 些 部 分 
组 成 : 





。 变更 数据 抓 取 (Change Data Capture, CDC) 功能 ， 可 以 读 取 服 务 
器 的 二 进 制 日 志 并 且 解 析 相 关 行 的 变更 。 

一 系列 可 以 帮助 创建 和 管理 视图 的 定义 的 存储 过 程 。 

一 些 可 以 应 用 变更 到 数据 库 中 的 物化 视图 的 工具 。 





对 比 传统 的 维护 汇总 表 和 缓存 表 的 方法 ，Flexviews 通 过 提取 对 源 表 
的 更 改 ， 可 以 增 量 地 重新 计算 物化 视图 的 内 容 。 这 意味 着 不 需要 通过 和 奉 
询 原 始 数 据 来 更 新 视图 。 例 如 ， 如 果 创 建 了 一 张 汇 总 表 用 于 计算 每 个 分 
组 的 行 数 ， 此 后 增加 了 一 行 数据 到 源 表 中 ，EFlexviews 简 单 地 给 相应 的 组 
的 行 数 加 一 即 可 。 同 样 的 技术 对 其 他 的 聚合 函数 也 有 效 ， 例 如 SUMCQO 和 
AVG QO 。 这 实际 上 是 有 好 处 的 ， 基 于 行 的 二 进 制 日 志 包 含 行 更 新 前 后 的 
镜像 ， 所 以 Flexviews 不 仅仅 可 以 获得 每 行 的 新 值 ， 还 可 以 不 需要 得 找 源 
表 束 能 知道 每 行 数据 的 旧版 本 。 计 算 增 量 数据 比 从 源 表 中 读 取 数据 的 效 














率 要 局 得 多 。 


因为 版 面 的 限制 ， 这 里 我 们 不 会 完整 地 探讨 怎么 使 用 Flexviews， 但 
是 可 以 给 出 一 个 概略 。 先 写 出 一 个 SELECT 语句 描述 想 从 已 经 存在 的 数据 
库 中 得 到 的 数据 。 这 可 能 包含 关联 和 聚合 (GROUP BY) 。Flexviews 中 有 
一 个 辅助 工具 可 以 转换 SQL 语 句 到 Flexviews 的 API 调 用 。Flexviews 会 做 
完 所 有 的 脏 活 、 累 活 : 监控 数据 库 的 变更 并 且 转 换 后 用 于 更 新 存储 物化 
视图 的 表 。 现 在 应 用 可 以 简单 地 查询 物化 视图 来 替代 查询 需要 检索 的 
Ro 
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没有 料 到 一 个 工具 可 以 在 MySQL 服 务 器 之 外 处 理 这 些 工作 。 这 一 点 对 
创建 基于 复 森 SQL 表达 式 的 视图 很 有 用 ， 可 以 用 基于 物化 视图 的 简单 、 
快速 的 查询 丛 换 原来 复杂 的 查询 。 


4.4.2 ”计数 器 表 


如 琳 应 用 在 表 中 保存 计数 器 ， 则 在 更 新 计数 费时 可 能 碰 到 并 友 问 
题 。 计 数 器 表 在 Web 应 用 中 很 常见 。 可 以 用 这 种 表 绥 存 一 个 用 户 的 朋友 
数 、 文 件 下 载 次 数 等 。 创 建 一 张 独 立 的 表 存 储 计数 器 通常 是 个 好 主意 ， 
这 样 可 使 计数 器 表 小 且 快 。 使 用 独立 的 表 可 以 帮助 避免 查询 缓存 失效 ， 
并 且 可 以 使 用 本 节 展 示 的 一 些 更 高 级 的 技巧 。 











应 该 让 事情 变 得 尽 可 能 简单 ， 假 设 有 一 个 计数 需 表 ， 只 有 一 行 数 
据 ， 记 录 网 站 的 反击 次 数 : 


mysql> CREATE TABLE hit_counter ( 


-> cnt int unsigned not null 


-> ) ENGINE=InnoDB; 
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mysql> UPDATE hit_counter SET cnt = cnt + 1; 








问题 在 于 ， 对 于 任何 想 要 更 新 这 一 行 的 事务 来 说 ， 这 条 记录 上 都 有 
一 个 全 局 的 互 斥 锁 (mutex) 。 这 会 使 得 这 些 事务 只 能 串 行 执行 。 要 获 
Fe PE De Se TT RE 也 可 以 将 计数 器 保存 在 多 行 中 ， 每 次 随机 选择 
一 行进 行 更 新 。 这 样 做 需要 对 计数 器 表 进行 如 下 修改 : 





mysql> CREATE TABLE hit_counter ( 
-> slot tinyint unsigned not null primary key, 
-> cnt int unsigned not null 


-> ) ENGINE=InnoDB; 


然后 预先 在 这 张 表 增加 100 行 数据 。 现 在 选择 一 个 随机 的 槽 “slot) 
进行 更 新 : 


mysql> UPDATE hit_counter SET cnt = cnt + 1 WHERE slot = RAND 





要 获得 统计 结果 ， 需 要 使 用 下 面 这 样 的 聚合 查询: 


mysql> SELECT SUM(cnt) FROM hit_counter; 








AE ALA is He ee BE — Ber Te Pea SP a CB, BEA 
一 个 ) 。 如 果 需 要 这 么 做 ， 则 可 以 再 简单 地 修改 一 下 表 设 计 : 


mysql> CREATE TABLE daily_hit_counter ( 


-> day date not null, 

-> slot tinyint unsigned not null, 
-> cnt int unsigned not null, 

-> primary key(day, slot) 


-> ) ENGINE=InnoDB; 


在 这 个 场景 中 ， 可 以 不 用 像 前 面 的 例子 那样 预先 生成 行 ， 而 用 ON 
DUPLICATE KEY _ UPDATE 代替 : 


mysql> INSERT INTO daily_hit_counter(day, slot, cnt) 
->  VALUES(CURRENT_DATE, RAND() * 100, 1) 


-> ON DUPLICATE KEY UPDATE cnt = cnt + 1; 


如 采 和 希望 减少 表 的 行 数 ， 以 避免 表 变 得 大大， 可 以 写 一 个 周期 执行 
的 任务 ， 合 并 所 有 结果 到 0 号 槽 ， 并 且 删 除 所 有 其 他 的 覃 : 





mysql> UPDATE daily_hit counter as c 
-> INNER JOIN ( 


-> SELECT day, SUM(cnt) AS cnt, MIN(slot) AS mslot 
-> FROM daily _hit_counter 
-> GROUP BY day 


-> ) AS x USING(day) 
-> SET c.cnt = IF(c.slot = x.mslot, x.cnt, 0), 
-> c.slot = IF(c.slot = x.mslot, 0, c.slot); 


mysql> DELETE FROM daily _hit_counter WHERE slot <> 0 AND cnt 





更 快 地 读 ， 更 慢 地 写 


为 了 提升 读 查询 的 速度 ， 经 常会 需要 建 一 些 额 外 索引 ， 增 加 宛 余 
列 ， 甚 至 是 创建 缓存 表 和 汇总 表 。 这 些 方法 会 增加 写 查 询 的 负担 ， 也 
需要 额外 的 维护 任务 ， 但 在 设计 高 性 能 数据 库 时 ， 这 些 都 是 常见 的 技 
巧 虽然 写 操作 变 得 更 慢 了 ， 但 更 显著 地 提高 了 读 操作 的 性 能 。 


然而 ， 写 操作 变 慢 并 不 是 读 操作 变 得 更 快 所 付出 的 唯一 代价 ， 还 
可 能 同时 增加 了 读 操作 和 写 操作 的 开发 难度 。 





4.5 加 快 ALTER TABLE 操 作 的 速 
度 


MySQL 的 ALTER TABLE 操作 的 性 能 对 大 表 来 说 是 个 大 问题 。MySQL 
执行 大 部 分 修改 表 结 构 操 作 的 方法 是 用 新 的 结构 创建 一 个 空 表 ， 从 旧 表 
中 碍 出 所 有 数据 插入 新 表 ， 然 后 删除 旧 表 。 这 样 操 作 可 能 需要 花费 很 长 
时 间 ， 如 果 内 存 不 足 而 表 又 很 大 ， 而 且 还 有 很 多 索引 的 情况 下 尤其 如 
此 。 许 多 人 都 有 这 样 的 经 验 ，ALTER ”TABLE 操 作 需 要 花费 数 个 小 时 甚至 
数 天 才能 完成 。 











MySQL 5.1 以 及 更 新 版 本 包含 一些 类 型 的 “在 线 ” 操 作 的 支持 ， 这 些 
功能 不 需要 在 整个 操作 过 程 中 锁 表 。 最 近 版 本 的 InnoDB99 也 支持 通过 
排序 来 建 索 引 ， 这 使 得 建 索 引 更 快 并 且 有 一 个 紧 凌 的 索引 布局 。 


一 般 而 言 ， 大 部 分 ALTER _ TABLE 操作 将 导致 MySQL 服 务 中 断 。 我 们 
会 展示 一 些 在 DDL 操 作 时 有 用 的 技巧 ， 但 这 是 针对 一 些 特殊 的 场景 而 言 
的 。 对 常见 的 场景 ， 能 使 用 的 技巧 只 有 两 种 : 一 种 是 先 在 一 台 不 提供 服 
务 的 机 器 上 执行 ALTER ”TABLE 操作， 然后 和 提供 服务 的 主 库 进行 切换 ; 
男 外 一 种 技巧 是 “影子 拷贝 "。 影 子 找 贝 的 技巧 是 用 要 求 的 表 结 构 创 建 一 
张 和 源 表 无 关 的 新 表 ， 然 后 通过 重 命 名 和 删 表 操作 交换 两 张 表 。 也 有 一 
些 工 具 可 以 帮助 完成 影子 找 贝 工作 : 例如 ，Facebook 数 据 库 运 维 团队 
Chttps://launchpad.net/mysqlatfacebook) 的 “online schema change” T. 
H., Shlomi Noach 的 openark toolkit (http://code.openark.org/) ， 以 及 
Percona Toolkit (http:/www.percona.com/software/) 。 如 果 使 用 
Flexviews (54.4.1707) ， 也 可 以 通过 其 CDC 工 具 执 行 无 锁 的 表 结 构 变 








cae 


不 是 所 有 的 ALTER “TABLE 操作 都 会 引起 表 重 建 。 例 如 ， 有 两 种 方法 
可 以 改变 或 者 删除 一 个 列 的 默认 值 〈 一 种 方法 很 快 ， 男 外 一 种 则 很 
慢 ) 。 假 如 要 修改 电影 的 默认 租赁 期 限 ， 从 三 天 改 到 五 天 。 下 面 是 很 慢 
As: 











mysql> ALTER TABLE sakila. film 
-> MODIFY COLUMN rental_duration TINYINT(3) NOT NULL DEFA 


SHOW STATUS 显示 这 个 语句 做 了 1000 次 读 和 1000 次 插入 操作 。 换 名 
话说 ， 它 拷贝 了 整 张 表 到 一 张 新 表 ， 其 至 列 的 类 型 、 大 小 和 可 否 为 NULL 
属性 都 没 改 变 。 


理论 上 ，MySQL 可 以 跳 过 创建 新 表 的 步骤 。 列 的 默认 值 实际 上 存 
在 表 的 .frm 文 件 中 ， 所 以 可 以 直接 修改 这 个 文件 而 不 需要 改动 表 本 身 。 
然而 MySQL 还 没有 采用 这 种 优化 的 方法 ， 所 有 的 MODIFY COLUMN 操 作 都 
将 导致 表 重 建 。 








另外 一 种 方法 是 通过 ALTER COLUMNQG9 操 作 来 改变 列 的 默认 值 : 


mysql> ALTER TABLE sakila. film 


-> ALTER COLUMN rental_duration SET DEFAULT 5; 





这 个 语句 会 直接 修改 .fm 文件 而 不 涉及 表 数 据 。 所 以 ， 这 个 操作 是 
非常 快 的 。 


4.5.1 只 修改 .frm 文 件 


从 上 面 的 例子 我 们 看 到 修改 表 的 .frm 文 件 是 很 快 的 ， 但 MySQL 有 时 
候 会 在 没有 必要 的 时 候 也 重建 表 。 如 果 愿 意 冒 一 些 风险 ， 可 以 让 
MySQL 做 一 些 其 他 类 型 的 修改 而 不 用 重建 表 。 





一 


一 人 ss 息 们 下 面 要 演示 的 技巧 是 不 受 官方 支持 的 ， 也 没有 文档 记录 ， 并 且 也 可 能 不 能 正 









































第 工作 ， 采 用 这 些 技术 需要 上 自己 承担 风险 。 建 议 在 执行 之 前 首先 备份 数据 ! 











下 面 这 些 操作 是 有 可 能 不 需要 重建 表 的 : 


。 移 除 〈 不 是 增加 ) 一 个 列 的 AUTO_ INERENTI 
e 增加 、 nego 。 如 果 移 除 的 是 已 经 有 行 数据 
用 到 其 值 的 常量 ， 查 询 将 会 pers 
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换 掉 已 经 存在 的 那 张 表 的 .frm 文 件 ， 像 下 面 这 样 : 





1. 创建 一 张 有 相同 结构 的 空 表 ， 并 进行 所 需要 的 修改 (例如 增加 ENUM 
Te) 。 
2. 执行 FLUSH TABLES WITH READ LOCK。 这 将 会 关闭 所 有 正在 使 用 的 
表 ， 并 且 禁 止 任何 表 被 打开 。 
3. 交换 .frm 文 件 . 
4. 执行 UNLOCK TABLES 来 释放 第 2 步 的 读 锁 。 


下 面 以 给 saki1a. flm 表 的 rating 列 增加 一 个 常量 为 例 来 说 明 。 当 前 
列 看 起 来 如 下 : 


=” COLUMNS FROM sakila.film LIKE ‘rating’; 
--------+------------------------------------ +------+-----+---------+-------+ 
| Field | Type | Null | Key | Default ! Extra | 


| rating | enum('G','PG', 'PG-13",'R', 'NC-17') | YES | | G | | 
--------+------------------------------------+------ +-----+---------+-------+ 


假设 我 们 需要 为 那些 对 电影 更 加 谨慎 的 父母 们 增加 一 个 PG-14 的 电 
分 级 : 


a 


A 


mysql> CREATE TABLE sakila.film_new LIKE sakila. film; 

mysql> ALTER TABLE sakila.film_new 
-> MODIFY COLUMN rating ENUM('G','PG', 'PG-13','R', 'NC-17' 
-> DEFAULT 'G'; 

mysql> FLUSH TABLES WITH READ LOCK; 





注意 ， 我 们 是 在 常量 列表 的 末尾 增加 一 个 新 的 值 。 如 果 把 新 增 的 值 
放 在 中 间 ， 例 如 PG-13 之 后 ， 则 会 导致 已 经 存在 的 数据 的 含义 被 改变 : 
己 经 存在 的 R 值 将 变 成 PG-14， 而 已 经 存在 的 NC-17 将 成 为 R， 等 等 。 








接 下 来 用 操作 系统 的 命令 交换 .frm 文 件 : 


/var/lib/mysql/sakila# mv film.frm film tmp.frm 
/var/lib/mysql/sakila# mv film_new.frm film.frm 


/var/lib/mysql/sakila# mv film tmp.frm film_new.frm 


再 回 到 MySQL 命 令 行 ， 现 在 可 以 解锁 表 并 且 看 到 变更 后 的 效果 


mysql> UNLOCK TABLES; 
mysql> SHOW COLUMNS FROM sakila.film LIKE 'rating'\G 

FOI ICI ICICI IO IO IO ICICI II J. pow RII IR IRI I IA A A I Kk 
Field: rating 

Type: enum('G', 'PG', 'PG-13', 'R', 'NC-17', 'PG-14') 


最 后 需要 做 的 是 删除 为 完成 这 个 操作 而 创建 的 辅助 表 : 


mysql> DROP TABLE sakila.film_new; 


4.5.2 ”快速 创建 MyISAM 索 引 


为 了 高 效 地 载 入 数据 到 MyISAM 表 中 ， 有 一 个 常用 的 技巧 是 先 禁 用 
索引 、 载 入 数据 ， 然 后 重新 局 用 索引 : 





mysql> ALTER TABLE test.load_data ENABLE KEYS; 
- load the data 


mysql> ALTER TABLE test.load_data ENABLE KEYS; 


这 个 技巧 能 够 及 挥 作用 ， 是 因为 构建 索引 的 工作 被 延迟 到 数据 完全 
载 入 以 后 ， 这 个 时 候 已 经 可 以 通过 排序 来 构建 索引 了 。 这 样 做 会 快 很 
Z, FPA S| ICOM ME BD. ERR. 





不 重 的 是 ， 这 个 办 法 对 唯一 索引 无 效 ， 因 为 DISABLE KEYS 只 对 非 唯 
一 索引 有 效 。MyISAM 会 在 内 存 中 构造 唯一 索引 ， 并 且 为 载 入 的 每 一 行 
检查 唯一 性 。 一 旦 索引 的 大 小 超过 了 有 效 内 存 大 小 ， 载 入 操作 束 会 变 得 
越 来 越 慢 。 


在 现代 版 本 的 InnoDB 版 本 中 ， 有 一 个 类 似 的 技巧 ， 这 依赖 于 
InnoDB 的 快速 在 线索 引 创 建功 能 。 这 个 技巧 是 ， 先 删除 所 有 的 非 唯 一 
有 索引， 然后 增加 新 的 列 ， 最 后 重新 创建 删除 挥 的 罕 引 。Percona Server 可 
以 自动 完成 这 些 操作 步骤 。 





也 可 以 使 用 像 前 面 说 的 ALTER ”TABLE 的 骇 客 方法 来 加 速 这 个 操作 ， 
但 需要 多 做 一 些 工作 并 且 承 担 一 定 的 风险 。 这 对 从 备份 中 载 入 数据 是 很 
有 用 的 ， 例 如 ， 当 已 经 知道 所 有 数据 都 是 有 效 的 并 且 没 有 必要 做 唯一 性 





检查 时 就 可 以 这 么 来 操作 。 


一 人 再次 说 明 ， 这 是 没有 文档 说 明 并 且 不 受 官方 支持 的 技巧 。 若 使 用 的 话 ， 需 要 自己 














承担 风险 ， 并 且 操 作 之 前 一 定 要 先 备 份 数据 。 


下 面 是 操作 步骤 ; 








1. 用 需要 的 表 结 构 创 建 一 张 表 ， 但 是 不 包括 索引 。 

2. 载 入 数据 到 表 中 以 构建 .MYD 文 件 。 

3. 按照 需要 的 结构 创建 另外 一 张 空 表 ， 这 次 要 包含 索引 。 这 会 创建 需 
要 的 .frm 和 .MYI 文 件 。 

4. 获取 读 锁 并 刷新 表 。 

5. 重 命名 第 二 张 表 的 .fn 和 .MY 文件， 让 MySQL 认 为 是 第 一 张 表 的 文 
件 。 

6. 释放 读 锁 。 

7. 使 用 REPAIR _ TABLE 来 重建 表 的 索引 。 该 操作 会 通过 排序 来 构建 所 有 
索引 ， 包 括 唯 一 索引 。 

















这 个 操作 步骤 对 大 表 来 说 会 快 很 多 。 
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良好 的 schema 设 计 原 则 是 普遍 适用 的 ， 但 MySQL 有 它 目 己 的 实现 
细节 要 注意 。 概 括 来 说 ， 尽 可 能 保持 任何 东西 小 而 简单 总 是 好 的 。 
MySQL 喜 欢 简 单 ， 需 要 使 用 数据 库 的 人 应 该 也 同样 会 喜欢 简单 的 原 
则 ; 


。 尽量 避免 过 度 设计 ， 例 如 会 导致 极其 复杂 得 询 的 schema 设 计 ， 或 者 
有 很 多 列 的 表 设 计 ( 很 多 的 意思 是 介 于 有 点 多 和 非常 多 之 间 ) 。 
使 用 小 而 简单 的 合适 数据 类 型 ， 除 非 真实 数据 模型 中 有 确切 的 需 
要 ， 人 否则 应 该 尽 可 能 地 避免 使 用 NULL 值 。 

尽量 使 用 相同 的 数据 类 型 存储 相似 或 相关 的 值 ， 尤 其 是 要 在 关联 条 
件 中 使 用 的 列 。 

注意 可 变 长 字符 串 ， 其 在 临时 表 和 排序 时 可 能 导致 悲观 的 按 最 大 长 
度 分 配 内 存 。 

尽量 使 用 整 型 定义 标识 列 。 

避免 使 用 MySQL 已 经 遗弃 的 特性 ， 例 如 指定 浮 点 数 的 精度 ， 或 者 
整数 的 显示 宽度 。 

小 心 使 用 ENUM 和 SET。 虽 然 它 们 用 起 来 很 方便 ， 但 是 不 要 滥用 ， 人 否 
则 有 时 候 会 变 成 陷阱 。 最 好 避免 使 用 BIT。 




















范式 是 好 的 ， 但 是 反 范 式 〈 大 多 数 情况 下 意味 肴 重复 数据 ) 有 时 也 
是 必需 的 ， 并 且 能 带 来 好 处 。 第 5 章 我 们 将 看 到 更 多 的 例子 。 预 先 计 
算 、 绥 存 或 生成 汇总 表 也 可 能 获得 很 大 的 好 处 。Justin Swanhart 的 
Flexviews 工 具 可 以 帮助 维护 汇总 表 。 











最 后 ，ALTER TABLE 是 让 人 痛 藻 的 操作 ， 因 为 在 大 部 分 情况 下 ， 它 
都 会 锁 表 并 且 重 建 整 张 表 。 我 们 展示 了 一 些 特殊 的 场景 可 以 使 用 骇 客 方 
法 ; 但 是 对 大 部 分 场景 ， 必 须 使 用 其 他 更 常规 的 方法 ， 例 如 在 备 机 执行 
ALTER 并 在 完成 后 把 它 切 换 为 主 库 。 本 书后 续 章 节 会 有 更 多 关于 这 方 
面 的 内 容 。 





(1) 例如 只 需要 存 0~200，tinyint unsigned 更 好 。 一 一 译 者 注 

(2) date, time, datatime——i#4 YE 

(3) 如 果 定 义 表 结 构 时 没有 指定 列 为 NOT NULL， 默 认 都 是 允许 为 NULL 的 。 

(4) 很 多 值 为 MLL， 只 有 少数 行 的 列 有 非 NULL 值 。 一 一 译 者 注 

(5) 记 住 字 符 串 长 度 定义 不 是 字 节 数 ， 是 字符 数 。 多 字 节 字符 集会 需要 更 多 的 空间 存储 单个 
字符 。 

(6) string3 尾 部 的 空格 还 在 。 一 一 译 者 注 

(7) Percona Server 里 的 Memory 引 擎 文 持 变 长 的 行 。 


(8) 如 果 需 要 在 检索 时 保持 值 不 变 ， 则 需要 特别 小 心 BINARY 关 型 ，MySQL 会 用 0 将 其 填充 到 
需要 的 长 度 。 


(9) 这 很 可 能 可 以 节省 W/O。 一 一 译 者 注 


(10) TIMESTAMP 的 行为 规则 比较 复杂 ， 并 且 在 不 同 的 MySQL 版 本 里 会 变动 ， 所 以 你 应 该 验 
数据 库 的 行为 是 你 需要 的 。 一 个 好 的 方式 是 修改 完 TIMESTAMP 列 后 用 SHOW CREATE TABLE 命令 
查 输出 。 


(11) 如果 使 用 的 是 InnoDB 存 储 引 擎 ， 将 不 能 在 数据 类 型 不 是 完全 匹配 的 情况 下 创建 外 键 ， 
否则 会 有 报错 信息 : “ERROR 1005 (HY000) :Can't create table”， 这 个 信息 可 能 让 人 迷惑 不 解 ， 
这 个 问题 在 MySQL 邮 件 组 也 经 常 有 人 抱怨 〈 但 奇怪 的 是 ， 在 不 同 长 度 的 VARCHAR 列 上 创建 外 键 
又 是 可 以 的 ) 。 

(12) 这 是 关联 到 另 一 张 存 储 名 字 的 表 的 ID 。 一 一 译 者 注 

(13) 另 一 方面 ， 对 一 些 有 很 多 写 的 特别 大 的 表 ， 这 种 伪 随 机 值 实际 上 可 以 帮助 消除 热点 。 

(14) 全 表 扫 描 基 本 上 是 顺序 VO， 但 也 不 是 100% 的 ， 跟 引擎 的 实现 有 关 。 译 者 注 

(15) 就 是 所 谓 的 “InnoDB plugin”, MySQL 5.5 和 更 新 版 本 中 唯一 的 InnoDB。 请 参考 第 1 章 中 
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关于 InnoDB 发 布 历史 的 细节 。 
(16) ALTER TABLE 人 允许 使 用 ALTER COLUMN, MODIFY COLUMN 和 CHANGE COLUMN 语 句 修改 列 。 这 





三 种 操作 都 是 不 
(17) 如 果 使 有 





样 的 。 
的 是 LOAD DATA FILE， 并 








来 构造 索引 。 














且 要 载 入 的 表 是 空 的 ，MyISAM 也 可 以 通过 排序 








Som 创建 高 性 能 的 索引 


索引 《在 MySQL 中 也 叫做 “ 键 Cey) ”) 是 存储 引擎 用 于 快速 找到 
记录 的 一 种 数据 结构 。 这 是 索引 的 基本 功能 ， 除 此 之 外 ， 本 章 还 将 讨论 
索引 其 他 一 些 方面 有 用 的 属性 。 











索引 对 于 民 好 的 性 能 非常 关键 。 尤 其 是 当 表 中 的 数据 量 越 来 越 大 
时 ， 索 引 对 性 能 的 影响 印发 重要 。 在 数据 量 较 小 且 负 载 较 低 时 ， 不 恰当 
的 索引 对 性 能 的 影响 可 能 还 不 明显 ， 但 当 数 据 量 逐 渐 增 大 时 ， 性 能 则 会 
急剧 下 降 品 。 





不 过 ， 索 引 却 经 第 被 忽略 ， 有 时 候 甚 至 被 误解 ， 所 以 在 实际 案例 中 
经 名 会 遇 到 由 粳 糕 索引 导致 的 问题 。 这 也 是 我 们 把 索引 优化 放 在 了 靠 前 
的 音节， 甚至 比 奏 询 优化 还 靠 前 的 原因 。 





索引 优化 应 该 是 对 碍 询 性 能 优化 最 有 效 的 手段 了 。 索 引 能 够 轻易 将 
查询 性 能 提高 儿 个 数量 级 , “最 优 ?的 索引 有 时 比 一 个 “好 的 ?索引 性 能 要 
好 两 个 数量 级 。 创 建 一 个 真正 “最 优 ” 的 索引 经 常 需要 重 写 查 询 ， 所 以 ， 
本 章 和 下 一 章 的 关系 非常 紧密 。 








5.1 索引 基础 


要 理解 MySQL 中 索引 是 如 何 工 作 的 ， 最 简单 的 方法 就 是 去 看 看 一 
本 书 的 “索引 ”部 分 : 如 果 想 在 一 本 书 中 找到 茶 个 特定 主题 ， 一 般 会 移 看 
书 的 “索引 ”， 找 到 对 应 的 页 码 。 





在 MySQL 中 ， 存 储 引 擎 用 类 似 的 方法 使 用 索引 ， 其 先 在 索引 中 找 
到 对 应 值 ， 然 后 根据 匹配 的 索引 记录 找到 对 应 的 数据 行 。 假 如 要 运行 下 
面 的 查询 : 





mysql> SELECT first_name FROM sakila.actor WHERE actor_id=5; 


如 果 在 actor_id 列 上 建 有 索引 ， 则 MySQL 将 使 用 该 索引 找 
到 actor_id 为 5 的 行 ， 也 就 是 说 ，MySQL 先 在 索引 上 按 值 进行 查找 ， 然 
后 返回 所 有 包含 该 值 的 数据 行 


AUDA TRE TON. MRA WIESE, BARN 
顺序 也 十 分 重要 ， 因 为 MySQL 只 能 局 效 地 使 用 索引 的 最 左前 级 列 。 创 
建 一 个 包含 两 个 列 的 索引 ， 和 创建 两 个 只 包含 一 列 的 索引 是 大 不 相同 
的 ， 下 面 将 详细 介绍 








如 采 使 用 的 是 ORM， 是 否 还 需要 关心 索引 ? 


简 而 言 之 : 是 的 ， 仍 然 需要 理解 索引 ， 即 使 是 使 用 对 象 关系 映射 
(ORM) 工具 。 


0ORM 工 具 能 够 生产 符合 还 辑 的 、 合 法 的 查询 〈 多 数 时候 ) , RSE 
只 是 生成 非常 基本 的 查询 (例如 仅 是 根据 主键 查询 ) ， 否 则 它 很 难 生 
成 适合 索引 的 查询 。 无 论 是 多 么 复杂 的 ORM 工 具 ， 在 精妙 和 复杂 的 索 
引 面 前 都 是 “浮云 ”。 读 完 本 章 后 面 的 内 容 以 后 ， 你 就 会 同意 这 个 观 
点 的 ! 很 多 时 候 ， 即 使 是 查询 优化 技术 专家 也 很 难 兼顾 到 各 种 情况 ， 
更 别 说 ORM 了 。 





5.1.1 索引 的 类 型 


索引 有 很 多 种 类 型 ， 可 以 为 不 同 的 场景 提供 更 好 的 性 能 。 在 
MySQL 中 ， 索 引 是 在 存储 引擎 层 而 不 是 服务 器 层 实 现 的 。 所 以 ， 并 没 
有 统一 的 索引 标准 : 不 同 存储 引擎 的 索引 的 工作 方式 并 不 一 样 ， 也 不 是 
所 有 的 存储 引擎 都 支持 所 有 类 型 的 索引 。 即 使 多 个 存储 引擎 支持 同一 种 
类 型 的 索引 ， 其 底层 的 实现 也 可 能 不 同 。 








下 面 我 们 先 来 看 看 MyYSQL 文 持 的 索引 类 型 ， 以 及 它们 的 优点 和 和 缺 
Frio 
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当 人 们 谈论 索引 的 时 候 ， 如 果 没 有 特别 指明 类 型 ， 那 多 半 说 的 是 B- 
Tree 索引 ， 它 使 用 B-Tree 数 据 结构 来 存储 数据 多 。 大 多 数 MySQL 引 擎 都 
文 持 这 种 索引 。Archive 引 擎 是 一 个 例外 : 5.1 之 前 Archive 不 文 持 任何 索 
引 ， 直 到 5.1 才 开始 文 持 单个 自 增 列 CAUTO_INCREMENT ) 的 索引 。 





我 们 使 用 术语 “B-Tree”， 是 因为 MySQL 在 CREATE TABLE 和 其 他 语句 
中 也 使 用 该 关键 字 。 不 过 ， 底 层 的 存储 引擎 也 可 能 使 用 不 同 的 存储 结 
构 ， 例 如 ，NDB 集 群 存储 引擎 内 部 实际 上 使 用 了 T-Tree 结 构 存 储 这 种 索 
引 ， 即 使 其 名 字 是 BTREE; InnoDB 则 使 用 的 是 B+Tree， 各 种 数据 结构 
和 算法 的 变种 不 在 本 书 的 讨论 范围 之 内 。 


存储 引擎 以 不 同 的 方式 使 用 B-Tree 索 引 ， 性 能 也 各 有 不 同 ， 各 有 优 
劣 。 例 如 ，MyISAM 使 用 前 缀 压缩 技术 使 得 索引 更 小 ， 但 InnoDB 则 按照 
原 数 据 格 式 进行 存储 。 再 如 MyISAM 索 引 通 过 数据 的 物理 位 置 引 用 被 索 
引 的 行 ， 而 InnoDB 则 根据 主键 引用 被 索引 的 行 。 


B-Tree 通 常 意味 着 所 有 的 值 都 是 按 顺 序 存储 的 ， 并 且 每 一 个 叶子 页 
到 根 的 距离 相同 。 图 5-1 展 示 了 B-Tree 索 引 的 抽象 表示 ， 大 致 反映 了 
InnoDB 索 引 是 如 何 工 作 的 。MyISAM 使 用 的 结构 有 所 不 同 ， 但 基本 思想 
是 类 似 的 。 








国 页 中 的 值 RAAR 
器 指向 子 页 的 指针 节点 页 的 指针 
ME 指向 下 一 个 叶 于 页 的 指针 


: © Ke 

wats [wa | T 
T 

指向 数据 的 指针 


( 恢 赖 于 不 同 存 情 引擎 } 





+ 一 一 运 辑 页 ， 大 小 
AT A el GAS E, 
34 InnoDB A 16K 











图 5-1: 建立 在 B-Tree 结 构 (从 技术 上 来 说 是 B+Tree) 上 的 索引 





B-Tree 索 引 能 够 加 快 访问 数据 的 速度 ， 因 为 存储 引擎 不 再 需要 进行 
全 表 扫 描 来 获取 需要 的 数据 ， 取 而 代 之 的 是 从 索引 的 根 节 点 《图 示 并 未 
画 出 ) 开始 进行 搜索 。 根 贡 点 的 槽 中 存放 了 指 同 子 节点 的 指针 ， 存 储 引 
擎 根据 这 些 指针 癌 下 层 碍 找 。 通 过 比较 节点 页 的 值 和 要 查找 的 值 可 以 找 
到 合适 的 指针 进入 下 层 子 节点 ， 这 些 指针 实际 上 定义 了 子 节 点 页 中 值 的 
上 限 和 下 限 。 最 终 存 储 引 擎 要 么 是 找到 对 应 的 值 ， 要 么 该 记录 不 存在 。 

















叶子 节点 比较 特别 ， 它 们 的 指针 指 加 的 是 被 索引 的 数据 ， 而 不 是 其 
他 的 市 点 页 〈 不 同 引 擎 的 “指针 ?类 型 不 同 ) 。 图 5-1 中 仅 绘 制 了 一 个 节 
扩 和 其 对 应 的 叶子 节操 ， 其 实在 根 节点 和 叶子 市 反之 间 可 能 有 很 多 层 市 
点 页 。 树 的 深度 和 表 的 大 小 直接 相关 。 











B-Tree 对 索引 列 是 顺 夺 组 织 存储 的 ， 所 以 很 适合 查找 范围 数据 。 例 
如 ， 在 一 个 基于 文本 域 的 索 引 树 上 ， 近 字母 顺序 传递 连续 的 值 进行 查找 
是 非常 合适 的 ， 所 以 像 * 找 出 所 有 以 I 到 K 开 头 的 名 字 ” 这 样 的 查找 效率 会 
非常 高 。 





假设 有 如 下 数据 表 : 


CREATE TABLE People ( 
last_name varchar (50) not null, 
first_name varchar(50) not null, 
dob date not null, 
gender enum('m', 'f') not null, 
key(last_name, first_name, dob) 


); 


对 于 表 中 的 每 一 行 数据 ， 索 引 中 包含 了 last_name、frst_name 和 





dob 列 的 值 ， 图 5-2 显 示 了 该 索引 是 如 何 组 织 数据 的 存储 的 。 
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图 5-2: B-Tree (从 技术 上 来 说 是 B+Tree) 索引 树 中 的 部 分 条 目 示 例 
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请 注意 ， 索 引 对 多 个 值 进行 排序 的 依据 是 CREATE TABLE 语句 中 
定义 索引 时 列 的 顺序 。 看 一 下 最 后 两 个 条 目 ， 两 个 人 的 姓 和 名 都 一 样 ， 
则 根据 他 们 的 出 生日 期 来 排列 顺序 。 





可 以 使 用 B-Tree 索 引 的 查询 类 型 。B-Tree 索 引 适 用 于 全 键 值 、 键 值 
范围 或 键 前 绥 碍 找 。 其 中 键 前 绥 查 找 只 适用 于 根据 最 左前 绥 的 查找 鸟 。 
前 面 所 述 的 索引 对 如 下 类 型 的 查询 有 效 。 





全 值 匹 配 


全 值 匹配 指 的 是 和 索引 中 的 所 有 列 进行 匹配 ， 例 如 前 面 提 到 的 
索引 可 用 于 查找 姓名 为 Cuba Allen、 出 生 于 1960-01-01 的 人 。 





匹配 最 左前 级 





前 面 提 到 的 索引 可 用 于 碍 找 所 有 姓 为 Allen 的 人 ， 即 只 使 用 索 
引 的 第 一 列 。 


匹配 列 前 级 





也 可 以 只 匹配 条 一 列 的 值 的 开关 部 分 。 例 如 前 面 提 到 的 索引 可 
用 于 碍 找 所 有 以 J 开 头 的 姓 的 人 。 这 里 也 只 使 用 了 索引 的 第 一 列 。 


匹配 范围 值 





例如 前 面 提 到 的 索引 可 用 于 查找 姓 在 Allen 和 Barrymore 之 间 的 
人 。 这 里 也 只 使 用 了 索引 的 第 一 列 。 


精确 匹配 某 一 列 并 范围 匹配 另外 一 列 








前 面 提 到 的 索引 也 可 用 于 查找 所 有 姓 为 Allen， 并 且 名 字 是 字 
母 K 开 头 〈 比 如 Kim、Karl 等 ) 的 人 。 即 第 一 列 last_name 全 匹配 ， 
第 二 列 frst_name 范 围 匹 配 。 


只 访问 索引 的 查询 





B-Tree 通 党 可 以 文 持 “ 只 访问 索引 的 碍 询 ”， 即 查询 只 需要 访问 
索引 ， 而 无 须 访 问 数 据 行 。 后 面 我 们 将 单独 讨论 这 种 “ 黎 盖 索引 ?的 
优化 。 


因为 索引 树 中 的 节点 是 有 序 的 ， 所 以 除了 按 值 得 找 之 外 ， 寺 引 还 可 
以 用 于 查询 中 的 ORDER ”BY 操作 《〈 按 顺序 查找) 。 一 般 来 说 ， 如 果 B- 
Tree 可 以 按照 茶 种 方式 碍 找到 值 ， 那 么 也 可 以 按照 这 种 方式 用 于 排序 。 
所 以 ， 如 果 ORDER BY 子 句 满足 前 面 列 出 的 几 种 碍 询 类 型 ， 则 这 个 索引 





也 可 以 满足 对 应 的 排序 需求 。 
下 面 是 一 些 关 于 B-Tree 索 引 的 限制 





如 果 不 是 按照 索引 的 最 左 列 开始 查找 ， 则 无 法 使 用 索引 。 例 如 上 面 
例子 中 的 索引 无 法 用 于 得 找 名 字 为 B 记 的 人 ， 也 无 法 碍 找 某 个 特定 
生日 的 人 ， 因 为 这 两 列 都 不 是 最 左 数据 列 。 类 似 地 ， 也 无 法 得 找 姓 
氏 以 某 个 字母 结尾 的 人 。 

不 能 跳 过 索引 中 的 列 。 也 就 是 说 ， 前 面 所 述 的 索引 无 法 用 于 查找 姓 
为 Smith 并 且 在 某 个 特定 日 期 出 生 的 人 。 如 果 不 指 定名 
(first_name) ， 则 MySQL 只 能 使 用 索引 的 第 一 列 。 

如 果 碍 询 中 有 某 个 列 的 范围 得 询 ， 则 其 右边 所 有 列 都 无 法 使 用 索引 
优化 查找 。 例 如 有 查询 WHERE last name='Smith' AND frst_name 
LIKE 'J%' AND dob='1976-12-23' ， 这 个 查询 只 能 使 用 索引 的 前 
两 列 ， 因 为 这 里 LIKE 是 一 个 范围 条 件 《〈“ 但 是 服务 器 可 以 把 其 余 列 用 
于 其 他 目的 ) 。 如 果 范 围 得 询 列 值 的 数量 有 限 ， 那 么 可 以 通过 使 用 
多 个 等 于 条 件 来 代替 范围 条 件 。 在 本 章 的 索引 案例 学 习 部 分 ， 我 们 
将 演示 一 个 详细 的 案例 。 





到 这 里 读者 应 该 可 以 明白 ， 前 面 提 到 的 索引 列 的 顺序 古 多 么 的 重 
要 : 这 些 限制 都 和 索引 列 的 顺序 有 关 。 在 优化 性 能 的 时 候 ， 可 能 需要 使 
用 相同 的 列 但 顺序 不 同 的 索引 来 满足 不 同类 型 的 查询 需求 。 





也 有 些 限 制 并 不 是 B-Tree 本 吴 导 致 的 ， 而 是 MySQL 优 化 器 和 存储 引 
黎 使 用 索引 的 方式 导致 的 ， 这 部 分 限制 在 未 来 的 版 本 中 可 能 束 不 再 是 限 
制 了。 





哈 布 索引 


哈 希 索引 (hash index) 基于 哈 希 表 实 现 ， 只 有 精确 匹配 索引 所 有 
列 的 查询 才 有 效 雪 。 对 于 每 一 行 数据 ， 存 储 引擎 都 会 对 所 有 的 索引 列 计 
算 一 个 哈 希 码 Chash code) ， 哈 希 码 是 一 个 较 小 的 值 ， 并 且 不 同 键 值 的 
行 计 算出 来 的 哈 希 码 也 不 一 样 。 哈 希 索 引 将 所 有 的 哈 希 码 存 储 在 索引 
中 ， 同 时 在 哈 希 表 中 保存 指 同 每 个 数据 行 的 指针 。 











在 MySQL 中 ， 只 有 Memory 引 擎 显 式 文 持 哈 希 索引 。 这 也 是 Memory 
引擎 表 的 默认 索引 类 型 ，Memory 引 擎 同时 也 支持 B-Tree 索 引 。 值 得 一 
提 的 是 ，Memory 引 擎 是 文 持 非 唯一 哈 硕 索引 的 ， 这 在 数据 库 世 界 里 面 
是 比较 与 众 不 同 的 。 如 果 多 个 列 的 哈 希 值 相 同 ， 索 引 会 以 链表 的 方式 存 
放 多 个 记录 指针 到 同一 个 哈 希 条 目 中 。 





下 面 来 看 一 个 例子 。 假 设 有 如 下 表 : 


CREATE TABLE testhash ( 
fname VARCHAR(50) NOT NULL, 
lname VARCHAR(50) NOT NULL, 
KEY USING HASH( fname) 

) ENGINE=MEMORY ; 


表 中 包含 如 下 数据 : 


pi — * FROM testhash; 


中 


| Arjen | Lentz | 
| Baron | Schwartz | 
| Peter | Zaitsev | 
| Vadim | Tkachenko | 


假设 索引 使 用 假想 的 哈 硕 函 数 f0， 它 返回 下 面 的 值 “ 都 是 示例 数 
据 ， 非 真实 数据 ) : 


Ff( 'Arjen' )= 2323 
f('Baron')= 7437 
f('Peter')= 8784 
f('Vadim')= 2458 


MRAR SI A AA OP : 





Hi (Slot) 值 (Value) 


eae 





注意 每 个 槽 的 编号 是 顺序 的 ， 但 是 数据 行 不 是 。 现 在 ， 来 看 如 下 奉 
询 : 


mysql> SELECT lname FROM testhash WHERE fname='Peter'; 





MySQL 先 计算 ' Peter ' 的 哈 希 值 ， 并 使 用 该 值 寻找 对 应 的 记录 指 
针 。 因 为 f〈'Peter' ) =8784， 所 以 MySQL 在 索引 中 查找 8784， 可 以 找 
到 指向 第 3 行 的 指针 ， 最 后 一 步 是 比较 第 三 行 的 值 是 否 为 'Peter' ， 以 确 
保 就 是 要 查找 的 行 。 








因为 索引 目 身 只 需 存 储 对 应 的 哈 希 值 ， 所 以 索引 的 结构 十 分 紧 凌 ， 
这 也 让 哈 硕 索引 得 找 的 速度 非常 快 。 然 而 ， 哈 硕 索 引 也 有 它 的 限制 : 


。 了 哈 币 索引 只 包含 哈 希 值 和 行 指 针 ， 而 不 存储 字段 值 ， 所 以 不 能 使 用 








索引 中 的 值 来 避免 读 取 行 。 不 过 ,访问 内 存 中 的 行 的 速度 很 快 ， 所 
以 大 部 分 情况 下 这 一 点 对 性 能 的 影响 并 不 明显 。 

哈 希 索引 数据 并 不 是 按照 索引 值 顺 序 存储 的 ， 所 以 也 就 无 法 用 于 排 
序 。 

哈 希 索引 也 不 支持 部 分 索引 列 匹 配 查 找 ， 因 为 哈 希 索引 始终 是 使 用 
索引 列 的 全 部 内 容 来 计算 哈 硕 值 的 。 例 如 ， 在 数据 列 CAB) 上 建 
芯 哈 希 索 引 ， 如 采 碍 询 只 有 数据 列 A， 则 无 法 使 用 该 索引 。 

哈 希 索引 只 文 持 等 值 比较 查询 ， 包 括 =、IN()、<=> (注意 <> 和 <=> 
是 不 同 的 操作 ) 。 也 不 文 持 任何 范围 查询 ， 例 如 WHERE 
price>100. 

访问 哈 希 索引 的 数据 非常 快 ， 除 非 有 很 多 哈 希 冲突 (不同 的 索引 列 
值 却 有 相同 的 哈 希 值 ) 。 当 出 现 哈 希 冲突 的 时 候 ， 存 储 引 警 必须 过 
历 链 表 中 所 有 的 行 指 针 ， 逐 行进 行 比较 ， 直 到 找到 所 有 符合 条 件 的 
行 。 

如 果 哈 希 冲 突 很 多 的 话 ， 一 些 索 引 维护 操作 的 代价 也 会 很 高 。 例 
如 ， 如 果 在 菏 个 选择 性 很 低 〈 哈 希 冲 突 很 多 ) 的 列 上 建立 哈 希 索 
引 ， 那 么 当 从 表 中 删除 一 行 时 ， 存 储 引 擎 需要 志 历 对 应 哈 希 值 的 链 
表 中 的 每 一 行 ， 找 到 并 删除 对 应 行 的 引用 ， 冲 突 越 多 ， 代 价 越 大 。 











因为 这 些 限 制 ， 哈 希 索 引 只 适用 于 茶 些 特定 的 场合 。 而 一 旦 适合 哈 


硕 索 引 ， 则 它 带 来 的 性 能 提升 将 非常 显 兰 。 举 个 例子 ， 在 数据 仓库 应 用 





中 有 一 种 经 典 的 “ 星 型 *schema， 需 要 关联 很 多 查找 表 ， 哈 希 索 引 束 非常 





适合 查找 表 的 需求 。 


除了 Memory 引 擎 外 ，NDB 集 群 引擎 也 文 持 唯 一 哈 希 索引 ， 且 在 


NDB 集 群 引 擎 中 作用 非常 特殊 ， 但 这 不 属于 本 书 的 范围 。 


InnoDB 引 擎 有 一 个 特殊 的 功能 叫做 “ 目 适 应 哈 希 索引 (adaptive hash 








index) ”。 当 InnoDB 注 意 到 某 些 索 引 值 被 使 用 得 非常 频 党 时 ， 它 会 在 内 
存 中 基于 B-Tree 索 引 之 上 再 创建 一 个 哈 希 索引 ， 这 样 就 让 B-Tree 索 引 也 
具有 哈 希 索引 的 一 些 优点 ， 比 如 快速 的 哈 希 查找。 这 是 一 个 完全 自动 
的 、 内 部 的 行为 ， 用 户 无 法 控制 或 者 配置 ， 不 过 如 果 有 必要 ， 完 全 可 以 
关闭 该 功能 。 


创建 目 定 义 哈 希 索引 。 如 宋 存 储 引擎 不 文 持 哈 希 索引 ， 则 可 以 模拟 
像 mnoDB 一 样 创建 哈 希 索引 ， 这 可 以 胖 受 一 些 哈 希 索 引 的 便利 ， 例 如 
只 珊 要 很 小 的 索引 束 可 以 为 超 长 的 键 创建 案 引 。 





思路 很 简单 : 在 B-Tree 基 础 上 创建 一 个 伪 哈 希 索 引 。 这 和 真正 的 哈 
硕 索引 不 是 一 回 事 ， 因 为 还 是 使 用 B-Tree 进 行 查找 ， 但 是 它 使 用 哈 希 值 
而 不 是 键 本 映 进行 索引 俘 找 。 你 需要 做 的 就 是 在 查询 的 WHERE 子 句 中 手 
动 指定 使 用 哈 希 函数 。 








下 面 是 一 个 实例 ， 例 如 需要 存储 大 量 的 URL， 并 需要 根据 URL 进 行 
搜索 查找 。 如 果 使 用 B-Tree 来 存储 URL， 存 储 的 内 容 就 会 很 大 ， 因 为 
URL 本 里 都 很 长 。 正 和 常 情况 下 会 有 如 下 查询 : 





mysql> SELECT id FROM url WHERE url="http://www.mysql.com"; 


AM ERR RURLYY EMS], Mert MAS] Murl_oredl, 8 
用 CRC32 做 哈 硕 ， 就 可 以 使 用 下 面 的 方式 查询 : 


mysql> SELECT id FROM url WHERE url="http://www.mysql.com" 
-> AND url_crc=CRC32("http://www.mysql.com") ; 
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高 而 体积 很 小 的 基于 ur1_crc 列 的 索引 来 完成 得 找 《〈 在 上 面 的 案例 中 ， 





索引 值 为 1560514994) 。 即 使 有 多 个 记录 有 相同 的 索引 值 ， 碍 找 仍然 很 
快 ， 只 需要 根据 哈 希 值 做 快速 的 整数 比较 就 能 找到 索引 条 目 ， 然 后 一 一 
比较 返回 对 应 的 行 。 为 外 一 种 方式 束 是 对 完整 的 URL 了 字符 串 做 索引 ， 那 
样 会 非常 慢 。 

















这 样 实 现 的 缺陷 是 需要 维护 哈 希 值 。 可 以 手动 维护 ， 也 可 以 使 用 触 
发 需 实 现 。 下 面 的 案例 演示 了 触发 右 如 何在 插入 和 更 新 时 维护 ur 1_crc 
列 。 首 先 创建 如 下 表 : 


CREATE TABLE pseudohash ( 
id int unsigned NOT NULL auto_increment, 
url varchar(255) NOT NULL, 
url_cre int unsigned NOT NULL DEFAULT 0, 
PRIMARY KEY(id) 

); 


然后 创建 触发 器 。 移 临时 修改 一 下 语句 分 隅 符 ， 这 样 就 可 以 在 触发 
are PEA aS: 


DELIMITER // 


CREATE TRIGGER pseudohash_crc_ins BEFORE INSERT ON pseudohash 
SET NEW.url_crc=crc32(NEW.url); 

END; 

// 


CREATE TRIGGER pseudohash_crc_upd BEFORE UPDATE ON pseudohash 
SET NEW.url_crc=crc32(NEW.url); 


END; 
// 


DELIMITER ; 





FR A VE i EE fit a 0 A] AEP Mia A ZR | 


mysql> INSERT INTO pseudohash (url) VALUES ('‘http://www.mysql.com'); 
mysql> SELECT * FROM sain 
+----+----------------------+------------ 十 

| id url | url crc | 
+----+---------------------- +------------ 十 

| 1 | http://www.mysql.com | 1560514994 l 

h UPDATE pseudohash SET y 'http: don mysql.com/' WHERE id=1; 
mysql> SELECT * FROM le 

+----+---------------------- +------------ 十 

| id | url | unl ẹrẹ | 


如 末 采 用 这 种 方式 ， 记 住 不 要 使 用 SHA1 0 和 MD5 () 作为 哈 希 函数 。 
因为 这 两 个 函数 计算 出 来 的 哈 希 值 是 非常 长 的 字符 串 ， 会 浪费 大 量 空 
间 ， 比 较 时 也 会 更 慢 。SHA1( 和 MD5 () 是 强加 密 函 数 ， 设 计 目 标 是 最 大 
限度 消除 冲突 ， 但 这 里 并 不 需要 这 样 高 的 要 求 。 简 单 哈 希 函数 的 冲突 在 
一 个 可 以 接受 的 范围 ， 同 时 又 能 够 提供 更 好 的 性 能 。 














如 果 数 据 表 非常 大 ，CRC320 会 出 现 大 量 的 哈 希 冲突 ， 则 可 以 考虑 

自己 实现 一 个 简单 的 64 位 哈 希 函数 。 这 个 自 定义 函数 要 返回 整数 ， 而 不 
是 字符 串 。 一 个 简单 的 办 法 可 以 使 用 MD5 0 函数 返回 值 的 一 部 分 来 作为 

自 定义 哈 希 函数 。 这 可 能 比 自己 写 一 个 哈 希 算法 的 性 能 要 差 (参考 第 7 
) ， 不 过 这 样 实现 最 简单 : 














pyayi» SELECT ER http://www.mysql.com/'), 16), 16, 10) AS HASH64; 





处 理 哈 希 冲 突 。 当 使 用 哈 希 索引 进行 查询 的 时 候 ， 必 须 在 WHERE 
子 句 中 包含 常量 值 : 





mysql> SELECT id FROM url WHERE url_crc=CRC32("http://www.mys 
-> AND url="http://www.mysgql.com"; 


一 旦 出 现 哈 希 冲 突 ， 男 一 个 字符 串 的 哈 希 值 也 恰好 是 1560514994， 
则 下 面 的 查询 是 无 法 正确 工作 的 。 





mysql> SELECT id FROM url WHERE url_crc=CRC32("http://www.mys 
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想象 的 要 快 得 多 。CRC320 返回 的 是 32 位 的 整数 ， 当 索引 有 93000 条 记录 
时 出 现 冲突 的 概率 是 1% 。 例 如 我 们 将 srshare/dictwords 中 的 词 导 入 数 
据 表 并 进行 CRC32 () 计算 ， 最 后 会 有 98 ”569 行 。 这 就 已 经 出 现 一 次 哈 希 
冲突 了 ， 冲 突 让 下 面 的 查询 返回 了 多 条 记录 : 




















va aoe word, crc FROM words WHERE crc = CRC32('gnu'); 


| codding | 1774765869 | 
l gnu | 1774765869 | 


正确 的 写法 应 该 如 下 : 


mysql> oe word, crc FROM words WHERE crc = CRC32('gnu')AND word = 'gnu'; 


| word | crc | 
+------ +------------ 十 
| gnu | 1774765869 l 


要 避免 冲突 问题 ， 必 须 在 WHERE 条 件 中 带 入 哈 希 值 和 对 应 列 值 。 如 
果 不 是 想 查 询 具 体 值 ， 例 如 只 是 统计 记录 数 〈 不 精确 的 ) ， 则 可 以 不 带 
入 列 值 ， 直 接 使 用 CRC32 0 的 哈 希 值 查 询 即 可 。 还 可 以 使 用 如 FNV64 () eK 
数 作为 哈 希 函 数 ， 这 是 移植 自 Percona Server 的 函数 ， 可 以 以 插件 的 方式 
在 任何 MySQL 版 本 中 使 用 ， 哈 希 值 为 64 位 ， 速 度 快 ， 且 冲突 比 CRC32 0 
要 少 很 多 。 


空间 数据 索引 (R-Tree) 





MyISAM 表 文 持 空 间 索 引 ， 可 以 用 作 地 理 数 据 存 储 。 和 B-Tree 索 引 
不 同 ， 这 类 索引 无 须 前 缀 查询 。 空 间 索 引 会 从 所 有 维度 来 索引 数据 。 查 
询 时 ， 可 以 有 效 地 使 用 任意 维度 来 组 合 查 询 。 必 须 使 用 MySQL 的 GIS 相 
关 函 数 如 MBRCONTAINS0O 等 来 维护 数据 。MySQL 的 GIS 文 持 并 不 完 
善 ， 所 以 大 部 分 人 都 不 会 使 用 这 个 特性 。 开 源 关 系数 据 库 系 统 中 对 GIS 
的 解决 方案 做 得 比较 好 的 是 PostgreSQL 的 PostGIS。 








全 文 索引 





全 文案 引 是 一 种 特殊 类 型 的 索引 ， 它 查找 的 是 文本 中 的 关键 词 ， 而 
不 是 直接 比较 索引 中 的 值 。 全 文 搜索 和 其 他 几 类 索引 的 匹配 方式 完全 不 
一 样 。 它 有 许多 需要 注意 的 细节 ， 如 俘 用 词 、 词 干 和 复数 、 布 尔 搜索 
等 。 全 文 索引 更 类 似 于 搜索 引擎 做 的 事情 ， 而 不 是 简单 的 WHERE 条 件 匹 
配 。 














在 相同 的 列 上 同时 创建 全 文 索引 和 基于 值 的 B-Tree 索 引 不 会 有 冲 
突 ， 全 文 索 引 适 用 于 MATCH ”AGAINST 操 作 ， 而 不 是 普通 的 WHERE 条 件 操 


作 。 
我 们 将 在 第 7 章 讨 论 更 多 的 全 文 索引 的 细 市 。 


HAER I KH 














还 有 很 多 第 三 方 的 存储 引擎 使 用 不 同类 型 的 数据 结构 来 存储 索引 。 
例如 TokuDB 使 用 分 形 树 索 引 (fractal tree index) ， 这 是 一 类 较 新 开发 
的 数据 结构 ， 既 有 B-Tree 的 很 多 优点 ， 也 避免 了 B-Tree 的 一 些 缺 点 。 如 
果 通 读 完 本 章 ， 可 以 看 到 很 多 关于 InnoDB 的 主题 ， 包 括 聚 簇 索 引 、 禾 
盖 索 引 等 。 多 数 情况 下 ， 针 对 InnoDB 的 讨论 也 都 适用 于 TokuDB。 











ScaleDB 使 用 Patricia tries 〈 这 个 词 不 是 拼写 错误 ) ， 其 他 一 些 存储 
引擎 技术 如 InfiniDB 和 Infobright 则 使 用 了 一 些 特殊 的 数据 结构 来 优化 某 
些 特殊 的 查询 。 


5.2 ASIN TOM 


AA S| FY ERRI ae PE HE APRA TSE DL ME IF NER I 
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引 也 有 一 些 其 他 的 附加 作用 。 














最 常见 的 B-Tree 索 引 ， 按 照 顺序 存储 数据 ， 所 以 MySQL 可 以 用 来 
做 ORDER BY 和 GROUP BY 操作 。 因 为 数据 是 有 序 的 ， 所 以 B-Tree 也 就 会 将 
相关 的 列 值 都 存储 在 一 起 。 最 后 ， 因 为 索引 中 存储 了 实际 的 列 值 ， 所 以 
某 些 查 询 只 使 用 索引 就 能 够 完成 全 部 查询 。 据 此 特性 ， 总 结 下 来 索引 有 
MW F=EMiR: 








1. 索引 大 大 减少 了 服务 器 需要 扫描 的 数据 量 。 
2. 索引 可 以 帮助 服务 器 避免 排序 和 临时 表 。 
3. 索引 可 以 将 随机 IO 变 为 顺序 IO。 


“索引 ”这 个 主题 完全 值得 单独 写 一 本 书 ， 如 果 想 深入 理解 这 部 分 内 
容 ， 强 烈 建议 阅读 由 Tapio Lahdenmaki 和 Mike ” Leach 编写 的 Relational 
Database Index Design and the Optimizers (Wiley 出 版 社 ) 一 书 ， 该 书 详 
细 介 绍 了 如 何 计算 索引 的 成 本 和 作用 、 如 何 评估 查询 速度 、 如 何 分 析 索 
引 维护 的 代价 和 其 带 来 的 好 处 等 。 


Lahdenmaki 和 Leach 在 书 中 介绍 了 如 何 评价 一 个 索引 是 否 适 合 某 个 
查询 的 “三 星系 统 ”(three-star system) : 索引 将 相关 的 记录 放 到 一 起 则 
获得 一 星 ; 如 果 索 引 中 的 数据 顺序 和 查找 中 的 排列 顺序 一 致 则 获得 二 
Fe; 如 果 索 引 中 的 列 包 含 了 但 询 中 需要 的 全 部 列 则 获得 “三 星 ”"。 后 面 我 














们 将 会 介绍 这 些 原 则 。 


索引 是 最 好 的 解决 方案 吗 ? 


索引 并 不 总 是 最 好 的 工具 。 总 的 来 说 ， 只 有 当 索 引 帮 助 存储 引擎 
快速 查找 到 记录 带 来 的 好 处 大 于 其 带 来 的 额外 工作 时 ， 索 引 才 是 有 效 
的 。 对 于 非常 小 的 表 ， 大 部 分 情况 下 简单 的 全 表 扫 描 更 高 效 。 对 于 中 
到 大 型 的 表 ， 索 引 就 非常 有 效 。 但 对 于 特大 型 的 表 ， 建 立 和 使 用 索引 
的 代价 将 随 之 增长 。 这 种 情况 下 ， 则 需要 一 种 技术 可 以 直接 区 分 出 查 
询 需 要 的 一 组 数据 ， 而 不 是 一 条 记录 一 条 记录 地 匹配 。 例 如 可 以 使 用 


分 区 技术 ， 请 参考 第 7 章 


如 果 表 的 数量 特别 多 ， 可 以 建立 一 个 元 数据 信息 表 ， 用 来 查询 需 
要 用 到 的 某 些 特性 。 例 如 执行 那些 需要 聚合 多 个 应 用 分 布 在 多 个 表 的 
数据 的 查询 ， 则 需要 记录 “哪个 用 户 的 信息 存储 在 哪个 表 中 ”的 元 数 
据 ， 这 样 在 查询 时 就 可 以 直接 忽略 那些 不 包含 指定 用 户 信 息 的 表 。 对 

于 大 型 系统 ， 这 是 一 个 常用 的 技巧 。 事 实 上 ，lnfobright 就 是 使 用 类 
似 的 实现 。 对 于 TB 级 别 的 数据 ， 定 位 单条 记录 的 意义 不 大 ， 所 以 经 常 
会 使 用 块 级 别 元 数据 技术 来 替代 索引 。 





5.3 fey MERE HY R 5| RE 


正确 地 创建 和 使 用 索引 是 实现 高 性 能 查询 的 基础 。 前 面 已 经 介绍 了 
各 种 类 型 的 索引 及 其 对 应 的 优 缺 点 。 现 在 我 们 一 起 来 看 看 如 何 真 正 地 发 
挥 这 些 索 引 的 优势 。 








高 效 地 选择 和 使 用 索引 有 很 多 种 方式 ， 其 中 有 些 是 针对 特殊 案例 的 
优化 方法 ， 有 些 则 是 针对 特定 行为 的 优化 。 使 用 哪个 索引 ， 以 及 如 何 评 
佑 选择 不 同 索 引 的 性 能 影响 的 技巧 ， 则 需要 持续 不 断 地 学 习 。 接 下 来 的 
几 个 小 节 将 帮助 读者 理解 如 何 高 效 地 使 用 索引 。 


5.3.1 独立 的 列 


我 们 通常 会 看 到 一 些 碍 询 不 当地 使 用 索引 ， 或 者 使 得 MYSQL 无 法 
使 用 己 有 的 索引 。 如 果 碍 询 中 的 列 不 是 独立 的 ， 则 MySQL 就 不 会 使 用 
索引 。“ 独 立 的 列 * 是 指 索引 列 不 能 是 表达 式 的 一 部 分 ， 也 不 能 是 函数 的 
参数 。 





例如 ， 下 面 这 个 查询 无 法 使 用 actor_id 列 的 索引 : 


mysql> SELECT actor_id FROM sakila.actor WHERE actor_id + 1 = 


攒 肉眼 很 容易 看 出 WHERE 中 的 表达 陈 其 实 等 价 于 actor_id=4， 但 
是 MySQL 无 法 自动 解析 这 个 方程 式 。 这 完全 是 用 户 行为 。 我 们 应 该 养 
成 简化 WHERE 条 件 的 习惯 ， 始 终 将 过 引 列 单 独 放 在 比较 符号 的 一 侧 。 





下 面 是 力 一 个 第 见 的 错误 : 


mysql> SELECT ... WHERE TO_DAYS(CURRENT DATE) - TO_DAYS(date 


5.3.2 ”前 级 索引 和 索引 选择 性 


有 时 候 需 要 索引 很 长 的 字符 列 ， 这 会 让 索引 变 得 大 且慢 。 一 个 策略 
是 前 面 提 到 过 的 模拟 哈 希 索引 。 但 有 时 候 这 样 做 还 不 够 ， 还 可 以 做 些 什 
AE? 








通常 可 以 索引 开始 的 部 分 字符 ， 这 样 可 以 大 大 节约 索引 空间 ， 从 而 
提高 索引 效率 。 但 这 样 也 会 降低 索引 的 选择 性 。 索 引 的 选择 性 是 指 ， 不 
重复 的 索引 值 〈 也 称 为 基数 ，cardinality) 和 数据 表 的 记录 总 数 〈#[) 
的 比值 ， 范 围 从 1#T 到 1 之 间 。 索 引 的 选择 性 越 高 则 碍 询 效 率 越 高 ， 因 
为 选择 性 高 的 索引 可 以 让 MySQL 在 查找 时 过 滤 挥 更 多 的 行 。 唯 一 索引 
的 选择 性 是 1， 这 是 最 好 的 索引 选择 性 ， 性 能 也 是 最 好 的 。 














一 般 情况 下 某 个 列 前 组 的 选择 性 也 是 足够 高 的 ， 足 以 满足 查询 性 
能 。 对 于 BLOB、TEXT 或 者 很 长 的 VARCHAR 类 型 的 列 ， 必 须 使 用 前 缀 索 
引 ， 因 为 MySQL 不 允许 索引 这 些 列 的 完整 长 度 。 








记 究 在 于 要 选择 足够 长 的 前 缀 以 保证 较 蜗 的 选择 性 ， 同 时 又 不 能 大 
长 (以 便 节 约 空间 〉。 前 级 应 该 足够 长 ， 以 使 得 前 缀 索引 的 选择 性 接近 
于 索引 整个 列 。 换 句 话说 ， 前 级 的 “基数 ”应 该 接近 于 完整 列 的 “基数 ”。 





为 了 决定 前 级 的 合适 长 度 ， 需 要 找到 最 第 见 的 值 的 列表 ， 然 后 和 最 
常见 的 前 级 列表 进行 比较 。 在 示例 数据 库 Sakila 中 并 没有 合适 的 例子 ， 
所 以 我 们 从 表 city 中 生成 一 个 示例 表 ， 这 样 就 有 足够 的 数据 进行 演示 : 


CREATE TABLE sakila.city_demo(city VARCHAR(50) NOT NULL); 
INSERT INTO sakila.city_demo(city) SELECT city FROM sakila.ci 
-- Repeat the next statement five times: 

city_demo; 

Now randomize the distribution (inefficiently but convenientl 
UPDATE sakila.city_demo 


SET city = (SELECT city FROM sakila.city ORDER BY RAND() L 





现在 我 们 有 了 示例 数据 集 。 数 据 分 布 当然 不 是 真实 的 分 布 ; 因为 我 
们 使 用 了 RAND () ， 所 以 你 的 结果 会 与 此 不 同 ， 但 对 这 个 练习 来 说 这 并 不 
重要 。 首 先 ， 我 们 找到 最 常见 的 城市 列表 : 


mysql> SELECT COUNT(*) AS cnt, city 
-> FROM sakila.city_demo GROUP BY city ORDER BY cnt DESC LIMIT 10; 


65 | London 

49 | Hiroshima 

48 | Teboksary 

48 | Pak Kret 

48 | Yaound 

47 | Tel Aviv-Jaffa 
47 | Shimoga 

45 | Cabuyao 

45 | Callao 

45 | Bislig 

+----- +---------------- 十 











注意 到 ， 上 面 每 个 值 都 出 现 了 45 一 65 次 。 现 在 查找 到 最 频繁 出 现 的 
城市 前 级 ， 先 从 3 个 前 级 字母 开始 : 


mysql> SELECT COUNT(*) AS cnt, LEFT(city, 3) AS pref 
-> FROM sakila.city_demo GROUP BY pref ORDER BY cnt DESC LIMIT 10; 








+----- +------ 十 
| cnt | pref 
+----- +------ + 
| 483 | San 

| 195 | Cha 

| 177 | Tan 

| 167 | Sou 

| 163 | al 

| 163 | Sal 

| 146 | Shi 

| 136 | Hal 

| 130 | Val 

| 129 | Bat 
+----- +------ + 


每 个 前 级 都 比 原来 的 城市 出 现 的 次 数 更 多 ， 因 此 唯一 前 级 比 唯 一 城 
市 要 少 得 多 。 然 后 我 们 增加 前 级 长 度 ， 直 到 这 个 前 级 的 选择 性 接近 完整 
列 的 选择 性 。 经 过 实验 后 发 现 前 缀 长 度 为 7 时 比较 合适 : 


mysql> SELECT COUNT(*) AS cnt, LEFT(city, 7) AS pref 
-> FROM sakila.city demo GROUP BY pref ORDER BY cnt DESC LIMIT 10; 
+ 











+----- +--------- 
| cnt | pref 
+----- +--------- 十 
| 70 | Santiag 

| 68 | San Fel 

| 65 | London 

| 61 | Valle d 

| 49 | Hiroshi 

| 48 | Teboksa 

| 48 | Pak Kre 

| 48 | Yaound 

| 47 | Tel Avi 

| 47 | Shimoga 
+----- +--------- 十 


计算 合适 的 前 缀 长 度 的 另外 一 个 办 法 就 是 计算 完整 列 的 选择 性 ， 并 
使 前 缀 的 选择 性 接近 于 完整 列 的 选择 性 。 下 面 显示 如 何 计算 完整 列 的 选 


Sete: 





m 
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| COUNT(DISTINCT city)/COUNT(*) | 
AS SRS SSSR SS + 


| 0.0312 | 





通常 来 说 (尽管 也 有 例外 情况 ) ， 这 个 例子 中 如 果 前 级 的 选择 性 能 





够 接近 0.031， 基 本 上 就 可 用 了 。 可 以 在 一 个 查询 中 针对 不 同 前 绥 长 度 
进行 计算 ， 这 对 于 大 表 非 常 有 用 。 下 面 给 出 了 如 何在 同一 个 查询 中 计算 
不 同 前 级 长 度 的 选择 性 : 





mysql> SELECT COUNT(DISTINCT LEFT(city, 3))/COUNT(*) AS sel3, 
->  COUNT(DISTINCT LEFT(city, 4))/COUNT(*) AS sel4, 
=> COUNT(DISTINCT LEFT(city, 5))/COUNT(*) AS sel5, 
-> COUNT(DISTINCT LEFT(city, 6))/COUNT(*) AS sel6, 
-> COUNT(DISTINCT LEFT(city, 7))/COUNT(*) AS sel7 
= he sakila. te Pe 


查询 显示 当前 级 长 度 到 达 7 的 时 候 ， 再 增加 前 缀 长度， 选择 性 提升 
的 幅度 已 经 很 小 了 。 





只 看 平均 选择 性 是 不 够 的 ， 也 有 例外 的 情况 ， 需 要 考虑 最 坏 情 况 下 
的 选择 性 。 平 均 选 择 性 会 让 你 认为 前 绥 长 度 为 4 或 者 5 的 索引 已 经 足够 
了 ， 但 如 果 数 据 分 布 很 不 均 义 ， 可 能 吏 会 有 陷阱 。 如 果 观 察 前 缀 为 4 的 
最 常 出 现 城市 的 次 数 ， 可 以 看 到 明显 不 均匀 : 


mysql> SELECT COUNT(*) AS cnt, LEFT(city, 4) AS pref 
-> Assi oe city_demo GROUP BY pref ORDER BY cnt DESC LIMIT 5; 


| cnt | pref | 
+-----+------ 十 
| 205 | San | 
| 200 | Sant | 
| 135 | Sout | 
| 104 | Chan | 
| 94 | Toul | 





如 果 前 级 是 4 个 字 市 ， 则 最 第 出 现 的 前 级 的 出 现 次 数 比 最 常 出 现 的 
城市 的 出 现 次 数 要 大 很 多 。 即 这 些 值 的 选择 性 比 平均 选择 性 要 低 。 如 果 
有 比 这 个 随机 生成 的 示例 更 真实 的 数据 ， 就 更 有 可 能 看 到 这 种 现象 。 例 
如 在 真实 的 城市 名 上 建 一 个 长 度 为 4 的 前 缀 索引 ， 对 于 
以 “San” 和 “New” 开 头 的 城市 的 选择 性 就 会 非常 糟糕 ， 因 为 很 多 城市 都 以 








这 两 个 词 开 头 。 





在 上 面 的 示例 中 ， 已 经 找到 了 合适 的 前 绥 长 度 ， 下 面 演示 一 下 如 何 
创建 前 绥 索 引 : 


mysql> ALTER TABLE sakila.city_demo ADD KEY (city(7)); 


前 级 索引 是 一 种 能 使 索引 更 小 、 更 快 的 有 效 办 法 ， 但 另 一 方面 也 有 
其 缺点 : MySQL 无 法 使 用 前 级 索引 做 ORDER BY 和 GROUP BY， 也 无 法 使 
用 前 绥 索 引 做 履 盖 扫描 。 





一 个 常见 的 场景 是 针对 很 长 的 十 六 进 制 唯一 ID 使 用 前 级 索 引 。 在 前 
面 的 章节 中 已 经 讨论 了 很 多 有 效 的 技术 来 存储 这 类 ID 信息 ， 但 如 果 使 用 
的 是 打包 过 的 解决 方案 ， 因 而 无 法 修改 存储 结构 ， 那 该 怎么 办 ? 例如 使 
用 vBulletin 或 者 其 他 基于 MySQL 的 应 用 在 存储 网 站 的 会 话 《SESSION ) 
时 ， 需 要 在 一 个 很 长 的 十 六 进 制 字符 串 上 创建 索引 。 此 时 如 果 采 用 长 度 
为 8 的 前 绥 索 引 通常 能 显著 地 提升 性 能 ， 并 且 这 种 方法 对 上 层 应 用 完全 


透明 。 
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HE) 。MySQL 原 生 并 不 文 持 反 回 索引 ， 但 是 可 以 把 字符 串 反 转 后 存储 ， 并 基于 此 建立 前 绥 索 
引 。 可 以 通过 触发 器 来 维护 这 种 索引 。 参 考 5.1 节 中 “创建 自 定 义 哈 希 索引 ?部 分 的 相关 内 容 。 


5.3.3 SIRS 


很 多 人 对 多 列 索引 的 理解 都 不 够 。 一 个 常见 的 错误 就 是 ， 为 每 个 列 
创建 独立 的 索引 ， 或 者 按照 错误 的 顺序 创建 多 列 索 引 。 


















































我 们 会 在 5.3.4 节 中 单独 讨论 索引 列 的 顺序 问题 。 先 来 看 第 一 个 问 
题 ， 为 每 个 列 创建 独立 的 索引 ， 从 SHOW CREATE TABLE 中 很 容易 看 
到 这 种 情况 : 


CREATE TABLE t ( 
c1 INT, 
c2 INT, 
c3 INT, 
KEY(c1), 
KEY(c2), 
KEY(c3) 

); 


这 种 索引 策略 ， 一 般 是 由 于 人 们 上 听 到 一 些 专家 诸如 “把 WHERE 条 件 里 
面 的 列 都 建 上 索引 ”这 样 模 糊 的 建议 导致 的 。 实 际 上 这 个 建议 是 非常 错 
误 的 。 这 样 一 来 最 好 的 情况 下 也 只 能 是 “一 星 ? 索 引 ， 其 性 能 比 起 真正 最 
优 的 索引 可 能 差 几 个 数量 级 。 有 时 如 果 无 法 设计 一 个 “三 星 ” 索 引 ， 那 么 
不 如 忽略 挥 WHERE 子 句 ， 集 中 精力 优化 索引 列 的 顺序 ， 或 者 创建 一 个 
AB tt RS « 








在 多 个 列 上 建立 独立 的 单列 索引 大 部 分 情况 下 并 不 能 提高 MySQL 
的 查询 性 能 。MySQL ”5.0 和 更 新 版 本 引入 了 一 种 叫 “ 索 引 合 并 ”(index 
merge) 的 策略 ， 一 定 程度 上 可 以 使 用 表 上 的 多 个 单列 索引 来 定位 指定 
的 行 。 更 早 版 本 的 MySQL 只 能 使 用 其 中 某 一 个 单列 索引 ， 然 而 这 种 情 
况 下 没有 哪 一 个 独立 的 单列 索引 是 非常 有 效 的 。 例 如 ， 表 fi lm_actor 在 
字段 film_id 和 actor_id 上 各 有 一 个 单列 索引 。 但 对 于 下 面 这 个 查询 
WHERE 条 件 ， 这 两 个 单列 索引 都 不 是 好 的 选择 : 














mysql> SELECT film_id, actor_id FROM sakila.film_actor 


-> WHERE actor_id = 1 OR film_id = 1; 


在 老 的 MySQL 版 本 中 ，MySQL 对 这 个 查询 会 使 用 全 表 扫 描 。 除 非 
改写 成 如 下 的 两 个 查询 UNION 的 方式 : 





mysql> SELECT film_id, actor_id FROM sakila.film_actor WHERE 
-> UNION ALL 


-> AND actor_id <> 1; 


但 在 MySQL 5.0 和 更 新 的 版 本 中 ， 查 询 能 够 同时 使 用 这 两 个 单列 索 
引进 行 扫 描 ， 并 将 结果 进行 合并 。 这 种 算法 有 三 个 变种 : OR 条 件 的 联 
合 (union) ，AND 条 件 的 相交 Cintersection) ， 组 合 前 两 种 情况 的 联合 
及 相交 。 下 面 的 查询 就 是 使 用 了 两 个 索引 扫 摘 的 联合 ， 通 过 EXPLAIN 中 
的 Extra 列 可 以 看 到 这 点 : 











mysql> EXPLAIN SELECT film_id, actor_id FROM sakila.film_acto 
-> WHERE actor_id = 1 OR film_id = 1\G 
FOI III IO ICI IOI IO ICI ICI J, pow FI IO IOI II IOI A Ik 
id: 1 
select_type: SIMPLE 
table: film_actor 
type: index_merge 
possible_keys: PRIMARY, idx_fk_film_id 
key: PRIMARY, idx_fk_film_id 
key_len: 2,2 
ref: NULL 


rows: 29 


中 还 


Extra: Using union(PRIMARY, idx_fk_film_id); Using whe 
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FY UL BUR RE. 
索引 合并 策略 有 时 候 是 一 种 优化 的 结果 ， 但 实际 上 更 多 时 候 说 明了 





RERI ERIS: 


当 出 现 服务 器 对 多 个 索引 做 相交 操作 时 《通常 有 多 个 AND 条 件 ) ， 
通常 意味 着 需要 一 个 包含 所 有 相关 列 的 多 列 索引 ， 而 不 是 多 个 独立 
的 单列 索引 。 

当 服 务 器 需要 对 多 个 索引 做 联合 操作 时 (通常 有 多 个 OR 条 件 ) ， 通 
常 需要 耗费 大 量 CPU 和 内 存 资源 在 算法 的 缓存 、 排 序 和 合并 操作 
上 。 特 别 是 当 其 中 有 些 索 引 的 选择 性 不 高 ， 需 要 合并 扫描 返回 的 大 
量 数据 的 时 候 。 

更 重要 的 是 ， 优 化 器 不 会 把 这 些 计算 到 “查询 成 本 ”(cost) 中 ， 优 
化 器 只 关心 随机 页 面 读 取 。 这 会 使 得 查询 的 成 本 被 “低估 ”， 导 致 该 
执行 计划 还 不 如 直接 走 全 表 扫 描 。 这 样 做 不 但 会 消耗 更 多 的 CPU 和 
内 存 资源 ， 还 可 能 会 影响 查询 的 并 发 性 ， 但 如 果 是 单独 运行 这 样 的 
查询 则 往往 会 忽略 对 并 发 性 的 影响 。 通 常 来 说 ， 还 不 如 像 在 
MySQL 4.1 或 者 更 早 的 时 代 一 样 ， 将 查询 改写 成 UN10N 的 方式 往往 
更 好 。 
































如 果 在 EXPLAIN 中 看 到 有 索引 合并 ， 应 该 好 好 检查 一 下 查询 和 表 的 











结构 ， 看 是 不 是 已 经 是 最 优 的 。 也 可 以 通过 参数 optimizer_switch 来 关 
闭 索引 合并 功能 。 也 可 以 使 用 1IGNORE 1NDEX 提 示 让 优化 器 忽略 掉 某 些 索 


号 


5.3.4 选择 合适 的 索引 列 有 顺序 


我 们 遇 到 的 最 容易 引起 困惑 的 问题 融 是 索引 列 的 顺序 。 正 确 的 顺序 
依赖 于 使 用 该 索引 的 查询 ， 并 且 同 时 需要 考虑 如 何 更 好 地 满足 排序 和 分 
组 的 需要 (顺便 说 明 ， 本 市 内 容 适用 于 B-Tree 索 引 ; 哈 希 或 者 其 他 类 型 
的 索引 并 不 会 像 B-Tree 索 引 一 样 按 顺 序 存 储 数据 ) 。 














在 一 个 多 列 B-Tree 索 引 中 ， 索 引 列 的 顺序 意味 着 索引 首先 按照 最 左 
列 进行 排序 ， 其 次 是 第 二 列 ， 等 等 。 所 以 ， 索 引 可 以 按照 升序 或 者 降序 
进行 扫描 ， 以 满足 精确 符合 列 顺 序 的 ORDER BY, GROUP BY 和 D1STINCT 等 
子 句 的 查询 需求 。 


所 以 多 列 索引 的 列 顺序 至 关 重 要 。 在 Lahdenmaki 和 Leach 的 “三 星 索 
引 ” 系 统 中 ， 列 顺序 也 决定 了 一 个 索引 是 否 能 够 成 为 一 个 真正 的 “三 星 索 
引 ”( 关 于 三 星 索 引 可 以 参考 本 章 前 面 的 5.2 节 ) 。 在 本 章 的 后 续 部 分 我 
们 将 通过 大 量 的 例子 来 说 明 这 一 点 。 











对 于 如 何 选择 索引 的 列 顺序 有 一 个 经 验 法 则 ， 将 选择 性 最 高 的 列 放 
到 索引 最 前 列 。 这 个 建议 有 用 吗 ?在 某 些 场景 可 能 有 帮助 ， 但 通常 不 如 
避免 随机 IO 和 排序 那么 重要 ， 考 虑 问题 需要 更 全 面 (场景 不 同 则 选择 不 
同 ， 没 有 一 个 放 之 四 海 缘 准 的 法 则 。 这 里 只 是 说 明 ， 这 个 经 验 法 则 可 能 
没有 你 想象 的 重要 ) 。 





当 不 需要 考虑 排序 和 分 组 时 ， 将 选择 性 最 高 的 列 放 在 前 面 通常 是 很 
好 的 。 这 时 候 索 引 的 作用 只 是 用 于 优化 WHERE 条 件 的 查找 。 在 这 种 情况 
下 ， 这 样 设计 的 索引 确实 能 够 最 快 地 过 小 出 需要 的 行 ， 对 于 在 WHERE 子 
句 中 只 使 用 了 索引 部 分 前 缀 列 的 查询 来 说 选择 性 也 更 高 。 然 而 ， 性 能 不 





只 是 依赖 于 所 有 索引 列 的 选择 性 (整体 基数 ) ， 也 和 碍 询 条 件 的 有 具体 值 
有 关 ， 也 就 是 和 值 的 分 布 有 关 。 这 和 前 面 介 绍 的 选择 前 绥 的 长 度 需 要 考 
虑 的 地 方 一 样 。 可 能 需要 根据 那些 运行 频率 最 局 的 查询 来 调整 索引 列 的 
顺序 ， 让 这 种 情况 下 索引 的 选择 性 最 高 。 














以 下 面 的 查询 为 例 : 


SELECT * FROM payment WHERE staff_id = 2 AND customer_id = 58 


是 应 该 创建 一 个 Cstaff_id, customer_id) 索引 还 是 应 该 颠倒 一 
下 顺序 ?可 以 跑 一 些 查 询 来 确定 在 这 个 表 中 值 的 分 布 情况 ， 并 确定 哪个 
列 的 选择 性 更 高 。 先 用 下 面 的 查询 预测 一 下 包 ， 看 看 各 个 WHERE 条 件 的 
分 文 对 应 的 数据 基数 有 多 大 : 





mysql> SELECT SUM(staff_id = 2), SUM(customer_id = 584) FROM 

炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 类 1. row 炎炎 炎炎 火炎 炎炎 炎炎 火炎 炎炎 炎炎 炎炎 类 类 类 类 类 类 类 大 
SUM(staff_id = 2): 7992 

SUM(customer_id = 584): 30 





根据 前 面 的 经 验 法 则 ， 应 该 将 索引 列 customer_id 放 到 前 面 ， 因 为 
对 应 条 件 值 的 customer_ id 数量 更 小 。 我 们 再 来 看 看 对 于 这 
个 customer_id 的 条 件 值 ， 对 应 的 staff_id 列 的 选择 性 如 何 : 


mysql> SELECT SUM(staff_id = 2) FROM payment WHERE customer_id 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 类 1 row 大 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 


SUM(staff_id = 2): 17 





这 样 做 有 一 个 地 方 需要 注意 ， 查 询 的 结果 非常 依赖 于 选 定 的 具体 
值 。 如 果 按 上 述 办 法 优化 ， 可 能 对 其 他 一 些 条 件 值 的 查询 不 公平 ， 服 务 





it HY) EPA HE HG FY BE et SE, MA EE te EA AST Be A 





如 果 是 从 诸如 pt-query-digest 这 样 的 工具 的 报告 中 提取 “最 差 "* 查 询 ， 
那么 再 按 上 述 办 法 选 定 的 索引 顺序 往往 是 非常 高 效 的 。 如 果 没 有 类 似 的 
具体 查询 来 运行 ， 那 么 最 好 还 是 按 经 验 法 则 来 做 ， 因 为 经 验 法 则 考虑 的 
是 全 局 基数 和 选择 性 ， 而 不 是 某 个 具体 查询 : 

















mysql> SELECT COUNT(DISTINCT staff_id)/COUNT(*) AS staff_id_s 
> COUNT(DISTINCT customer_id)/COUNT(*) AS customer_id_se 
> COUNT(*) 
> FROM payment\G 
FOOT IO IO ICR III IO q. pow FRAO IR II AR IA A A I Kk 
staff_id_selectivity: 0.0001 
customer_id_selectivity: 0.0373 


COUNT(*): 16049 


customer_id 的 选择 性 更 高 ， 所 以 答案 是 将 其 作为 索引 列 的 第 一 
列 : 


mysql> ALTER TABLE payment ADD KEY(customer id, staff id); 





当 使 用 前 级 索引 的 时 候 ， 在 某 些 条 件 值 的 基数 比 正常 值 蜗 的 时 候 ， 
问题 就 来 了 。 例 如 ， 在 某 些 应 用 程序 中 ， 对 于 没有 登录 的 用 户 ， 都 将 其 
用 户 名 记录 为 “guset”， 在 记录 用 户 行为 的 会 话 《〈session) 表 和 其 他 记录 
用 户 活动 的 表 中 “guest” 就 成 为 了 一 个 特殊 用 户 ID。 一 旦 查询 涉及 这 个 用 
户 ， 那 么 和 对 于 正常 用 户 的 僵 询 就 大 不 同 了 ， 因 为 通常 有 很 多 会 话 都 是 
没有 登录 的 。 系 统 账 号 也 会 导致 类 似 的 问题 。 一 个 应 用 通常 都 有 一 个 特 
殊 的 管理 员 账 号 ， 和 普通 账号 不 同 ， 它 并 不 是 一 个 具体 的 用 户 ， 系 统 中 











所 有 的 其 他 用 户 都 是 这 个 用 户 的 好 友 ， 所 以 系统 往往 通过 它 同 网 站 的 所 
有 用 户 发 送 状 态 通 知 和 其 他 消息 。 这 个 账号 的 巨大 的 好 友 列 表 很 容易 导 
致 网 站 出 现 服务 器 性 能 问题 。 





这 实际 上 是 一 个 非常 典型 的 问题 。 任 何 的 异常 用 户 ， 不 仅仅 是 那些 
用 于 管理 应 用 的 设计 糟糕 的 账号 会 有 同样 的 问题 ， 那些 拥 有 大 量 好 友 、 
图 片 、 状 态 、 收 藏 的 用 户 ， 也 会 有 前 面 提 到 的 系统 账号 同样 的 问题 。 





下 面 是 一 个 我 们 遇 到 过 的 真实 采 例 ， 在 一 个 用 户 分 至 购买 商品 和 购 
买 经 验 的 论坛 上 ， 这 个 特殊 表 上 的 查询 运行 得 非常 慢 : 





mysql> SELECT COUNT(DISTINCT threadId) AS COUNT_VALUE 
-> FROM Message 
-> WHERE (groupId = 10137) AND (userId = 1288826) AND (an 


-> ORDER BY priority DESC, modifiedDate DESC 


这 个 碍 询 看 似 没 有 建立 合适 的 索引 ， 所 以 客户 咨询 我 们 是 否 可 以 优 
化 。EXPLAIN 的 结果 如 下 : 


id: 1 
select_type: SIMPLE 
table: Message 
type: ref 
key: i1x_groupId_userId 
key_len: 18 
ref: const,const 
rows: 1251162 


Extra: Using where 


MySQL 为 这 个 查询 选择 了 索引 〈group1d，user1d) ， 如 果 不 考虑 
列 的 基数 ， 这 看 起 来 是 一 个 非常 合理 的 选择 。 但 如 果 考 虑 一 下 user ID 和 
group ID 条 件 匹 配 的 行 数 ， 可 能 就 会 有 不 同 的 想法 了 : 


mysql> SELECT COUNT(*), SUM(groupId = 10137), 
-> SUM(userId = 1288826), SUM(anonymous = 0) 
-> FROM Message\G 
FO IORI CII IO IO TOR ICICI I J. pow RIOR IR IR IAA A IK 
count(*): 4142217 
sum(groupId = 10137): 4092654 
sum(userId = 1288826): 1288496 


sum(anonymous = 0): 4141934 


从 上 面 的 结果 来 看 符合 组 (group1d) 条 件 几 乎 满足 表 中 的 所 有 
行 ， 符 合用 户 (user1d) 条 件 的 有 130 万 条 记录 一 一 也 就 是 说 索引 基本 
上 没什么 用 。 因 为 这 些 数据 是 从 其 他 应 用 中 迁移 过 来 的 ， 迁 移 的 时 候 把 
所 有 的 消 妨 都 赋予 了 管理 员 组 的 用 户 。 这 个 和 案例 的 解决 办 法 是 修改 应 用 
程序 代码 ， 区 分 这 类 特殊 用 户 和 组 ， 禁 止 针 对 这 类 用 户 和 组 执行 这 个 查 
询 。 














从 这 个 小 案例 可 以 看 到 经 验 法 则 和 推论 在 多 数 情况 是 有 用 的 ， 但 要 
注意 不 要 假设 平均 情况 下 的 性 能 也 能 代表 特殊 情况 下 的 性 能 ， 特 殊 情 况 
可 能 会 摧毁 整个 应 用 的 性 能 。 





最 后 ， 尽 管 关 于 选择 性 和 基数 的 经 验 法 则 值得 去 研究 和 分 析 ， 但 一 
定 要 记 住 别 迄 了 WHERE 子 句 中 的 排序 、 分 组 和 范围 条 件 等 其 他 因素 ， 这 
些 因 素 可 能 对 查询 的 性 能 造成 非常 大 的 影响 。 


5.3.5 KIRA 





FR S| DIED ERARIK, TE AH TZ ZK 
FAR AZT a ESE sh, {InnoDB RERI SE EE EA 
ZR PRA T B-Treezs 5| MART. ARA RERIT, EMA 
际 上 存放 在 索引 的 叶子 页 Ceaf page) 中 。 术 语 “ 聚 艇 "表示 数据 行 和 相 
邻 的 键 值 紧凑 地 存储 在 一 起 久 。 因 为 无 法 同时 把 数据 行 存放 在 两 个 不 同 
的 地 方 ， 所 以 一 个 表 只 能 有 一 个 聚 簇 索引 〈 不 过 ， 敌 盖 索 引 可 以 模拟 多 
个 聚 斤 索引 的 情况 ， 本 和 草 后 面 将 详细 介绍 ) 。 


























因为 是 存储 引擎 负责 实现 索引 ， 因 此 不 是 所 有 的 存储 引擎 都 文 持 聚 
簇 索引 。 本 节 我 们 主要 关注 InnoDB， 但 是 这 里 讨论 的 原理 对 于 任何 文 
持 聚 徐 索 引 的 存储 引擎 都 是 适用 的 。 








图 5-3 展 示 了 聚 徐 索引 中 的 记录 是 如 何 存 放 的 。 注 意 到 ， 叶 子 页 包 
含 了 行 的 全 部 数据 ， 但 是 节点 页 只 包含 了 索引 列 。 在 这 个 案例 中 ， 索 引 
列 包含 的 是 整数 值 。 
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一 些 数据 库 服务 怖 允许 选择 哪个 索引 作为 聚 徐 索 引 ， 但 直到 本 书写 
作 之 际 ， 还 没有 任何 一 个 MySQL 内 建 的 存储 引擎 文 持 这 一 点 。InnoDB 
将 通过 主键 聚集 数据 ， 这 也 就 是 次 图 5-3 中 的 “被 索引 的 列 ? 就 是 主键 
列 。 





如 果 没 有 定义 主键 ，InnoDB 会 选择 一 个 唯一 的 非 空 索 引 代 疹 。 如 
果 没 有 这 样 的 索引 ，InnoDB 会 隐 式 定义 一 个 主键 来 作为 聚 艇 索引 。 
InnoDB 只 聚集 在 同一 个 页 面 中 的 记录 。 包 含 相 邻 键 值 的 页 面 可 能 会 相 
距 其 远 。 





聚 禾 主 键 可 能 对 性 能 有 帮助 ， 但 也 可 能 导致 严重 的 性 能 问题 。 所 以 
需要 仔细 地 考虑 聚 簇 索 引 ， 尤 其 是 将 表 的 存储 引擎 从 InnoDB 改 成 其 他 
引擎 的 时 候 〈 反 过 来 也 一 样 〉。 





聚集 的 数据 有 一 些 重 要 的 优点: 


性 能 。 


可 以 把 相关 数据 保存 在 一 起 。 例 如 实现 电子 邮箱 时 ， 可 以 根据 用 户 
ID 来 聚集 数据 ， 这 样 只 需要 从 磁盘 读 取 少 数 的 数据 页 就 能 获取 某 个 
用 户 的 全 部 邮件 。 如 果 没 有 使 用 聚 徐 索引 ， 则 每 封 邮件 都 可 能 导致 
一 次 磁盘 IO。 

数据 访问 更 快 。 聚 复 索 引 将 索引 和 数据 保存 在 同一 个 B-Tree 中 ， 因 
此 从 聚 簇 索引 中 获取 数据 通常 比 在 非 聚 簇 索引 中 查找 要 快 。 

使 用 覆盖 索引 扫描 的 查询 可 以 直接 使 用 页 节点 中 的 主键 值 。 























如 果 在 设计 表 和 查询 时 能 充分 利用 上 面 的 优点 ， 那 就 能 极 大 地 提升 
IN, ARPA SA ER 


聚 复数 据 最 大 限度 地 提高 了 IO 密集 型 应 用 的 性 能 ， 但 如 果 数 据 全 
部 都 放 在 内 存 中 ， 则 访问 的 顺序 就 没 那 么 重要 了 ， 聚 复 索 引 也 就 没 
什么 优势 了 。 

插入 速度 严重 依赖 于 插入 顺序 。 按 照 主键 的 顺序 插入 古 加 载 数据 到 
InnoDB 表 中 速度 最 快 的 方式 。 但 如 果 不 是 按照 主键 顺序 加 载 数 
据 ， 那 么 在 加 载 完 成 后 最 好 使 用 0PTIMIZE TABLE 命 令 重新 组 织 一 下 
表 。 

更 新 聚 艇 索引 列 的 代价 很 高 ， 因 为 会 强制 InnoDB 将 每 个 被 更 新 的 
行 移 动 到 新 的 位 置 。 

基于 肾 秘 索 引 的 表 在 插入 新 行 ， 或 者 主键 被 更 新 导致 需要 移动 行 的 
时 候 ， 可 能 面临 “页 分 裂 (page split) ”的 问题 。 当 行 的 主键 值 要 求 
必须 将 这 一 行 插入 到 茶 个 已 满 的 页 中 时 ， 存 储 引擎 会 将 该 页 分 裂 成 
两 个 页 面 来 容纳 该 行 ， 这 束 是 一 次 页 分 裂 操 作 。 页 分 裂 会 导致 表 占 
用 更 多 的 磁盘 空间 。 
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分 裂 导 致 数据 存储 不 连续 的 时 候 。 

















ZRRI GERRI 可 能 比 想象 的 要 更 大 ， 因 为 在 二 级 索引 的 
叶子 市 点 包含 了 引用 行 的 主键 列 。 
二 级 索引 访问 需要 两 次 索引 查找 ， 而 不 是 一 次 。 








最 后 一 点 可 能 让 人 有 些 疑 惑 ， 为 什么 二 级 索引 需要 两 次 索引 得 找 ? 
答 采 在 于 二 级 索引 中 保存 的 “ 行 指 针 ” 的 实质 。 要 记 住 ， 二 级 索引 叶子 市 
点 保存 的 不 是 指 疝 行 的 物理 位 置 的 指针 ， 而 是 行 的 主键 值 。 








这 童 味 着 通过 二 级 索引 查找 行 ， 存 储 引 擎 需要 找到 二 级 索引 的 叶子 

点 获得 对 应 的 主键 值 ， 然 后 根据 这 个 值 去 聚 艇 索引 中 查找 到 对 应 的 
AT 。 这 里 做 了 重复 的 工作 ; 两 次 B-Tree 查 找 而 不 是 一 次 名 。 对 于 
InnoDB， 自 适应 哈 希 索引 能 够 减少 这 样 的 重复 工作 。 





InnoDB 和 MYyISAM 的 数据 分 布 对 比 


聚 禾 索引 和 非 聚 禾 索 引 的 数据 分 布 有 区 别 ， 以 及 对 应 的 主键 索引 和 
二 级 索引 的 数据 分 布 也 有 区 别 ， 通 常会 让 人 感到 困扰 和 意外 。 来 看 看 
InnoDB 和 MyISAM 是 如 何 存储 下 面 这 个 表 的 : 


CREATE TABLE layout_test ( 
coli int NOT NULL, 
col2 int NOT NULL, 
PRIMARY KEY(col1), 
KEY(col12) 

) ; 


假设 该 表 的 主键 取 值 为 1 一 10000， 按 照 随 机 顺序 插入 并 使 
FAOPTIMIZE TABLE 命 令 做 了 优化 。 换 句 话 说， 数据 在 破 盘 上 的 存储 方式 


己 经 最 优 ， 但 行 的 顺序 是 随机 的 。 列 col2 的 值 是 从 1 一 100 之 间 随 机 赋 
值 ， 所 以 有 很 多 重复 的 值 。 





MYyISAM 的 数据 分 布 。MyISAM 的 数据 分 布 非常 简单 ， 所 以 先 介绍 
它 。MyISAM 按 照 数 据 插入 的 顺序 存储 在 磁盘 上 ， 如 图 5-4 所 示 。 




















图 5-4: My1lSAM 表 1ayout test 的 数据 分 布 








在 行 的 旁边 显示 了 行 号 ， 从 0 开始 递增 。 因 为 行 是 定 长 的 ， 所 以 
MyISAM 可 以 从 表 的 开头 跳 过 所 需 的 字 节 找到 需要 的 行 (MyISAM 并 不 
总 是 使 用 图 5-4 中 的 “ 行 号 ”， 而 是 根据 定 长 还 是 变 长 的 行使 用 不 同 策 
He) 。 











这 种 分 布 方式 很 容易 创建 索引 。 下 面 显示 的 一 系列 图 ， 隐 藏 了 页 的 
物理 细节 ， 只 显示 索引 中 的 “节点 ”， 罕 引 中 的 每 个 叶子 市 皮包 含 “ 行 
号 ”。 图 5-5 显 示 了 表 的 主键 。 
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图 5-5: My1SAM 表 1ayout_test 的 主键 分 布 











这 里 忽略 了 一 些 细节 ， 例 如 前 一 个 B-Tree 节 点 有 多 少 个 内 部 节点 ， 
不 过 这 并 不 影响 对 非 聚 复 存储 引擎 的 基本 数据 分 布 的 理解 。 





那 co12 列 上 的 索引 又 会 如 何 呢 ? 有 什么 特殊 的 吗 ? 回答 是 否定 的 : 
它 和 其 他 索引 没有 什么 区 别 。 图 5-6 显 示 了 co12 列 上 的 索引 。 
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图 5-6: My1SAM 表 1ayout_test 的 co12 列 索引 的 分 布 














事实 上 ，MyISAM 中 主键 索引 和 其 他 索引 在 结构 上 没有 什么 不 同 。 
主键 索引 就 是 一 个 名 为 PRIMARY 的 唯一 非 空 索引 。 


InnoDB 的 数据 分 布 。 因 为 InnoDB 文 持 聚 艇 索引， 所 以 使 用 非常 不 
同 的 方式 存储 同样 的 数据 。InnoDB 以 如 图 5-7 所 示 的 方式 存储 数据 。 
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图 5-7: InnoDB 表 1ayout_test 的 主键 分 布 








第 一 眼看 上 去 ， 感 觉 该 图 和 前 面 的 图 5-5 没 有 什么 不 同 ， 但 再 仔细 
看 细 市 ， 会 注意 到 该 图 显示 了 整个 表 ， 而 不 是 只 有 索引 。 因 为 在 
InnoDB 中 ， 聚 族 索 引 “ 束 是 ” 表 ， 所 以 不 像 MyISAM 那 样 需 要 独立 的 行 存 
储 。 














聚 秘 索 引 的 每 一 个 叶子 节操 剖 包含 了 主键 值 、 事 务 ID、 用 于 事务 和 
MVCC90 的 回 滚 指针 以 及 所 有 的 剩余 列 《〈 在 这 个 例子 中 是 co12) 。 如 果 
主键 是 一 个 列 前 缀 索引 ，InnoDB 也 会 包含 完整 的 主键 列 和 剩 下 的 其 他 
列 。 


还 有 一 点 和 MyISAM 的 不 同 是 ，InnoDB 的 二 级 索引 和 聚 簇 索引 很 不 
相同 。InnoDB 二 级 索引 的 叶子 节点 中 存储 的 不 是 “ 行 指针 ”， 而 是 主键 
值 ， 并 以 此 作为 指向 行 的 “指针 ”。 这 样 的 策略 减少 了 当 出 现行 移动 或 者 
数据 页 分 裂 时 二 级 索引 的 维护 工作 。 使 用 主键 值 当 作 指 针 会 让 二 级 索引 
占用 更 多 的 空间 ， 换 来 的 好 处 是 ，InnoDB 在 移动 行 时 无 须 更 新 二 级 索 
引 中 的 这 个 “指针 *”。 











图 5-8 显 示 了 示例 表 的 co12 索 引 。 每 一 个 叶子 节点 都 包含 了 索引 列 
(这 里 是 co12) ， 紧 接着 是 主键 值 (coll) 。 





图 5-8 展 示 了 B-Tree 的 叶子 节点 结构 ， 但 我 们 故意 省 略 了 非 叶子 市 反 
这 样 的 细节 。InnoDB 的 非 叶子 节 氮 包含 了 索引 列 和 一 个 指 癌 下 级 节点 
的 指针 《下 一 级 节点 可 以 是 非 叶子 节点 ， 也 可 以 是 叶子 节点 ) 2 ROR 
簇 索引 和 二 级 索引 都 适用 。 
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图 5-8: lnnoDB 表 1ayout test 的 二 级 索引 分 布 


图 5-9 是 描述 InnoDB 和 MyISAM 如 何 存放 表 的 抽象 图 。 从 图 5-9 中 可 
以 很 容易 看 出 InnoDB 和 MYyISAM 保 存 数据 和 索引 的 区 别 。 














InnoDB ( WERE) 表 分 布 : MyISAM ( 4EWERE ) 表 分 布 





图 5-9: Rak A AE RR ak AT e A 
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别 及 这 些 区 别 的 重要 性 ， 也 不 用 担心 。 随 着 学 习 的 深入 ， 尤 其 是 学 完 本 
半 剩 下 的 部 分 以 及 下 一 章 以 后 ， 这 些 问题 束 会 变 得 越发 清楚 。 这 些 概念 


有 些 复杂 ， 需 要 一些 时 间 才能 完全 理解 。 
在 InnoDB 表 中 按 主键 顺序 插入 行 


如 采 正 在 使 用 InoDB 表 并 且 没 有 什么 数据 需要 聚集 ， 那 么 可 以 定 
义 一 个 代理 键 (surrogate key) 作为 主键 ， 这 种 主键 的 数据 应 该 和 应 用 
无 天 ， 最 简单 的 方法 是 使 用 AUTO_1INCREMENT 目 增 列 。 这 样 可 以 保证 数据 
行 是 按 顺 序号 入 ， 对 于 根据 主键 做 关联 操作 的 性 能 也 会 更 好 。 


最 好 避免 随机 的 《不 连续 且 值 的 分 布 范 围 非 钊 大 ) ARREST 
是 对 于 1/O 密 集 型 的 应 用 。 例 如 ， 从 性 能 的 角度 考虑 ， 使 用 UUID 来 作为 
PRR S| MIRAE: 它 使 得 聚 簇 索 引 的 插入 变 得 完全 随机 ， 这 是 最 坏 
的 情况 ， 使 得 数据 没有 任何 聚集 特性 。 








为 了 演示 这 一 点 ， 我 们 做 如 下 两 个 基准 测试 。 第 一 个 使 用 整数 ID 插 
入 user infox: 


CREATE TABLE userinfo ( 


id int unsigned NOT NULL AUTO_INCREMENT, 
name varchar(64) NOT NULL DEFAULT '', 

email varchar(64) NOT NULL DEFAULT '', 
password varchar(64) NOT NULL DEFAULT '', 

dob date DEFAULT NULL, 

address varchar(255) NOT NULL DEFAULT '', 

city varchar(64) NOT NULL DEFAULT '', 
state_id tinyint unsigned NOT NULL DEFAULT 'O', 


zip varchar(8) NOT NULL DEFAULT '', 


country_id 
gender 
account_type 
verified 
allow_mail 
parrent_account 


closest_airport 


PRIMARY KEY (id), 


smallint unsigned NOT NULL DEFAULT 'O', 
('M', 'F')NOT NULL DEFAULT 'M', 
varchar(32) NOT NULL DEFAULT '', 
tinyint NOT NULL DEFAULT 'O', 

tinyint unsigned NOT NULL DEFAULT 'O', 
int unsigned NOT NULL DEFAULT 'O', 


varchar(3) NOT NULL DEFAULT '', 


UNIQUE KEY email (email), 


KEY country_id (country_id), 
KEY state_id (state_id), 
KEY state_id_ 2 (state_id,city,address) 


) ENGINE=InnoDB 


注意 到 使 用 了 自 增 的 整数 ID 作 为 主键 QD。 


第 二 个 例子 是 userinfo_uuid 表 。 除 了 主键 改 为 UUID， 其 余 和 前 面 的 


userinfo 表 完全 相同 。 


CREATE TABLE userinfo_uuid ( 


uuid varchar(36) NOT NULL, 
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引 的 服务 器 上 向 这 两 个 表 各 插入 100 万 条 记录 。 然 后 向 这 两 个 表 继 续 插 
入 300 万 条 记录 ， 使 索引 的 大 小 超过 服务 口 的 内 存 容量 。 表 5-1 对 测试 结 


果 做 了 比较 。 





R5-1: 向 InnoDB 表 插入 数据 的 测试 结果 





注意 到 辐 UUID 主 键 插入 行 不 仅 花 费 的 时 间 更 长 ， 而 且 索 引 占 用 的 
空间 也 更 大 。 这 一 方面 是 由 于 主键 字段 更 长 ， 允 一 方面 坚 无 疑问 古 由 于 
页 分 裂 和 碎片 导致 的 。 





为 了 明白 为 什么 会 这 样 ， 来 看 看 往 第 一 个 表 中 插入 数据 时 ， 索 引发 
生 了 什么 变化 。 图 5-10 显 示 了 插 满 一 个 页 面 后 继续 插入 相 邻 的 下 一 个 页 
面 的 场景 。 





GEFAASST: 每 条 新 记录 当 责 被 揪 满 后 ， 继 续 拉 入 到 新 的 页 
总 是 在 前 一 条 记录 的 后 面 插入 














图 5-10: 向 聚 禾 索引 插入 顺序 的 索引 值 


如 图 5-10 所 示 ， 因 为 主键 的 值 是 顺序 的 ， 所 以 InnoDB 把 每 一 条 记录 
都 存储 在 上 一 条 记录 的 后 面 。 当 达到 页 的 最 大 填充 因子 时 (InnoDB 默 
认 的 最 大 填充 因子 是 页 大 小 的 15/16， 留 出 部 分 空间 用 于 以 后 修改 ) ， 











下 一 条 记录 就 会 写 入 新 的 页 中 。 一 旦 数据 按照 这 种 顺序 的 方式 加 载 ， 主 
键 页 就 会 近似 于 被 顺序 的 记录 填 满 ， 这 也 正 是 所 期 望 的 结果 《然而 ， 二 
级 索引 页 可 能 是 不 一 样 的 ) 。 





对 比 一 下 加 第 二 个 使 用 了 UUID 聚 簇 索 引 的 表 插 入 数据 ， 看 看 有 什 
么 不 同 ， 图 5-11 显 示 了 结果 。 


因为 新 行 的 主键 值 不 一 定 比 之 前 插入 的 大 ， 所 以 InnoDB 无 法 简单 
地 总 是 把 新 行 插入 到 索引 的 最 后 ， 而 是 需要 为 新 的 行 寻找 合适 的 位 置 
一 一 通常 是 已 有 数据 的 中 间 位 置 一 一 并 且 分 配 空间 。 这 会 增加 很 多 的 额 
外 工作 ， 并 导致 数据 分 布 不 够 优化 。 下 面 是 总 结 的 一 些 缺 点 : 





© 写 入 的 目标 页 可 能 已 经 刷 到 磁盘 上 并 从 缓存 中 移 除 ， 或 者 是 还 没有 
被 加 载 到 缓存 中 ，InnoDB 在 插入 之 前 不 得 不 移 找 到 并 从 磁盘 读 取 
目标 页 到 内 存 中 。 这 将 导致 大 量 的 随机 IO。 

。 因为 写 入 是 乱 序 的 ，InnoDB 不 得 不 频繁 地 做 页 分 裂 操 作 ， 以 便 为 
新 的 行 分 配 空间 。 页 分 裂 会 导致 移动 大 量 数据 ， 一 次 插入 最 少 需 要 
修改 三 个 页 而 不 是 一 个 页 。 

© 由 于 频繁 的 页 分 裂 ， 页 会 变 得 稀 玖 并 被 不 规则 地 填充 ， 所 以 最 终 数 
HRAN o 
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TABLE 来 重建 表 并 优化 页 的 填充 。 


从 这 个 案例 可 以 看 出 ， 使 用 InnoDB 时 应 该 尽 可 能 地 按 主键 顺序 插 
入 数据 ， 并 且 尽 可 能 地 使 用 单调 增加 的 聚 秘 键 的 值 来 插入 新 行 。 





MA UUD: 新 的 记录 可 能 插入 到 之 前 记录 的 中 间 ， 
导致 需要 强制 移动 之 前 的 记录 


000644 | 00169 | 00221 
16-6175 | 1a-6175 | Se-6177 


#SAECSAASR EHR 
可 能 会 被 重新 读 取 


000544 | ooe | ooreo | 002775 | oom 
16-6175 | 20-6180 | 12-6175 | 64-6178 | 8e-6177 

001475 
只 显示 了 UUID 和 64-6101 


的 前 13 个 字符 











图 5-11: 向 聚 禾 索引 中 村 入 无 序 的 值 


顺序 的 主键 什么 时 候 会 造成 更 坏 的 结果 ? 


对 于 高 并 发 工作 负载 ， 在 InnoDB 中 按 主键 顺序 插入 可 能 会 造成 明 
显 的 争 用 。 主 键 的 上 界 会 成 为 “热点 ”。 因 为 所 有 的 播 入 都 发 生 在 这 
里 ， 所 以 并 发 插入 可 能 导致 间 障 锁 竞争 。 另 一 个 热点 可 能 


是 AUTO_1NCREMENT 锁 机 制 ; 如 果 遇 到 这 个 问题 ， 则 可 能 需要 考虑 重新 
设计 表 或 者 应 用 ， 或 者 更 改 innodb_autoinc_lock_mode 配 置 。 如 果 你 
的 服务 器 版 本 还 不 支持 innodb_autoinc_lock_mode 参 数 ， 可 以 升级 到 
新 版 本 的 InnoDB， 可 能 对 这 种 场景 会 工作 得 更 好 。 





5.3.6 fem Al 
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单 是 WHERE 条 件 部 分 。 索 引 确 实 是 一 种 碍 找 数 据 的 高 效 方式 ， 但 是 
MySQL 也 可 以 使 用 索引 来 直接 获取 列 的 数据 ， 这 样 束 不 再 需要 读 取 数 
据 行 。 如 果 索 引 的 叶子 市 反 中 已 经 包含 要 查询 的 数据 ， 那 么 还 有 什么 必 
要 再 回 表 人 查询 昵 ?如 末 一 个 索引 包含 (或 者 说 窗 盖 ) 所 有 需要 但 询 的 字 
BIHE, RIRIN ARI” o 


























Mim AWIRRAAIN TA, Heme RATE EE. eh FUR 
碍 询 只 需要 扫描 案 引 而 无 须 回 表 ， 会 融 来 多 少 好 处 : 











索引 条 目 通 常 远 小 于 数据 行 大 小 ， 所 以 如 果 只 需要 读 取 索引 ， 那 
MySQL 就 会 极 大 地 减少 数据 访问 量 。 这 对 缓存 的 负载 非常 重要 ， 
因为 这 种 情况 下 响应 时 间 大 部 分 花费 在 数据 拷贝 上 。 鹤 盖 索 引 对 于 
LO 密集 型 的 应 用 也 有 帮助 ， 因 为 索引 比 数据 更 小 ， 更 容易 全 部 放 
入 内 存 中 (这 对 于 MyISAM 尤 其 正确 ， 因 为 MyISAM 能 压缩 索引 以 
变 得 更 小 ) 。 

因为 索引 是 按照 列 值 顺序 存储 的 《至 少 在 单个 页 内 是 如 此 ) ， 所 以 
对 于 LO 密集 型 的 范围 查询 会 比 随机 从 磁盘 读 取 每 一 行 数据 的 VO 要 
少 得 多 。 对 于 某 些 存储 引擎 ， 例 如 MyISAM 和 Percona XtraDB, i 
至 可 以 通过 OPTIMIZE 命 令 使 得 索引 完全 顺序 排列 ， 这 让 简单 的 范 
围 查询 能 使 用 完全 顺序 的 索引 访问 。 

一 些 存储 引擎 如 MyISAM 在 内 存 中 只 缓存 索引 ， 数 据 则 依赖 于 操作 
系统 来 缓存 ， 因 此 要 访问 数据 需要 一 次 系统 调用 。 这 可 能 会 导致 严 
重 的 性 能 问题 ， 尤 其 是 那些 系统 调用 占 了 数据 访问 中 的 最 大 开销 的 
场景 。 
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的 二 级 索引 在 叶子 市 把 中 保存 了 行 的 主键 值 ， 所 以 如 果 二 级 主键 能 
够 覆盖 查询 ， 则 可 以 避免 对 主键 索引 的 二 次 查询 。 





在 所 有 这 些 场景 中 ， 在 索引 中 满足 查询 的 成 本 一 般 比 碍 询 行 要 小 得 
多 。 














不 是 所 有 类 型 的 索引 都 可 以 成 为 敢 盖 索引 。 禾 盖 索 引 必须 要 存储 索 
引 列 的 值 ， 而 哈 希 索引 、 空 间 索 引 和 全 文案 引 等 都 不 存储 索引 列 的 值 ， 
所 以 MySQL 只 能 使 用 B-Tree 索 引 做 履 盖 索引 。 另 外 ， 不 同 的 存储 引擎 实 
现 履 盖 索 引 的 方式 也 不 同 ， 而 且 不 是 所 有 的 引擎 都 文 持 履 兰 索引 《在 写 
EREET, Memory f tif 9] 2 tA sc REMAR) o 











“PR S| i A) CHE | A) 时， 
在 EXPLAIN 的 Extra 列 可 以 看 到 “Using index” 的 信息 9。 例 如 ， 
表 saki la. inventory 有 一 个 多 列 索 引 (store_id, flm_id) > MySQL 
如 果 只 需 访问 这 两 列 ， 就 可 以 使 用 这 个 索引 做 覆盖 索引 ， 如 下 所 示 : 





mysql> EXPLAIN SELECT store_id, film_id FROM sakila.inventory\G 
FOI IO ICICI IO ICICI IOI ICR J. pow RIO II IO TOTO IOI TOTO A I a 
id: 1 
select_type: SIMPLE 
table: inventory 
type: index 
possible_keys: NULL 
key: idx_store_id_film_id 
key_len: 3 
ref: NULL 


rows: 4673 


Extra: Using index 








5 i BAIA AR & RAGE AY RES Se BOCES. ~ MySQL 
TA Las 2 TET dB A A PR S| WET Ee tt. IR I 
盖 了 WHERE 条 件 中 的 字段 ， 但 不 是 整个 查询 涉及 的 字段 。 如 果 条 件 为 假 
(false) ，MySQL 5.5 和 更 早 的 版 本 也 总 是 会 回 表 获取 数据 行 ， 尽 管 
并 不 需要 这 一 行 且 最 终 会 被 过 滤 掉 。 








来 看 看 为 什么 会 发 生 这 样 的 情况 ， 以 及 如 何 重 写 查 询 以 解决 访问 
题 。 从 下 面 的 查询 开 始 : 


mysql> EXPLAIN SELECT * FROM products WHERE actor='SEAN CARRE 
-> AND title like '%APOLLO%'\G 
FOI ICICI IO ICI IOI IO ICI ICI J, pow FI IO IOI II IOI A I ak 
id: 1 
select_type: SIMPLE 
table: products 
type: ref 
possible_keys: ACTOR, IX_PROD_ACTOR 
key: ACTOR 
key_len: 52 
ref: const 
rows: 10 


Extra: Using where 
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A, MILA 5 Bae SAAN. At, Hye EMySQLitAa 
一 个 捷径 可 以 利用 : WHERE 条 件 中 的 列 是 有 索引 可 以 履 盖 的 ， 因 此 
MySQL 可 以 使 用 该 索引 找到 对 应 的 actor 并 检查 title 是 否 匹 配 ， 过 滤 
之 后 再 读 取 需 要 的 数据 行 。 

MySQL 不 能 在 索引 中 执行 LIKE 操 作 。 这 是 底层 存储 引擎 API 的 限 

制 ，MySQL ”5.5 和 更 早 的 版 本 中 只 允许 在 索引 中 做 简单 比较 操作 
(例如 等 于 、 不 等 于 以 及 大 于 ) 。MySQL 能 在 索引 中 做 最 左前 绥 
匹配 的 LIKE 比 较 ， 因 为 该 操作 可 以 转换 为 简单 的 比较 操作 ， 但 是 如 
果 是 通配符 开头 的 LIKE 查 询 ， 存 储 引擎 就 无 法 做 比较 匹配 。 这 种 情 
况 下 ，MySQL 服 务 器 只 能 提取 数据 行 的 值 而 不 是 索引 值 来 做 比 


较 。 























也 有 办 法 可 以 解决 上 面 说 的 两 个 问题 ， 需 要 重 写 查询 并 巧妙 地 设计 
索引 。 先 将 索引 扩展 至 上 覆盖 三 个 数据 列 Cartist, title, prod_id) ， 
然后 按 如 下 方式 重 写 碍 询 : 











mysql> EXPLAIN SELECT * 


-> FROM products 


-> JOIN ( 

=> SELECT prod_id 

-> FROM products 

-> WHERE actor='SEAN CARREY' AND title LIKE '%APOLL 


-> ) AS t1 ON (t1.prod_id=products.prod_id)\G 
火炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1. row 火炎 大 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 
id: 1 
select_type: PRIMARY 


table: <derived2> 


.., omitted... 
FOI IO III III ICI 9. pow FOI IO II TIO IOI A I ak 
id: 1 
select_type: PRIMARY 
table: products 
.. omitted... 
FOO IOI ICICI IO ICICI CII 3 让 OIC IO CI OI I IO I IK 
id: 2 
select_type: DERIVED 
table: products 
type: ref 
possible_keys: ACTOR, ACTOR_2, IX_PROD_ACTOR 





key: ACTOR_2 
key_len: 52 

ref: 

rows: 11 


Extra: Using where; Using index 


我 们 把 这 种 方式 叫做 延迟 关联 (deferred join) ， 因 为 延迟 了 对 列 的 
访问 。 在 但 询 的 第 一 阶段 MySQL 可 以 使 用 覆盖 索引 ， 在 FROM 子 句 的 子 
查询 中 找到 匹配 的 prod_id， 然 后 根据 这 些 prod_id 值 在 外 层 碍 询 匹 配 获 
取 和 需要 的 所 有 列 值 。 虽 然 无 法 使 用 索引 用 盖 整 个 查询 ， 但 总 算 比 完全 无 
法 利用 索引 用 盖 的 好 。 











这 样 优化 的 效果 取决 于 WHERE 条 件 匹 配 返 回 的 行 数 。 假 设 这 
个 products 表 有 100 万 行 ， 我 们 来 看 一 下 上 面 两 个 查询 在 三 个 不 同 的 数 
据 集 上 的 表现 ， 每 个 数据 集 都 包含 100 万 行 : 








1. 第 一 个 数据 集 ，Sean Carrey 出 演 了 30000 部 作品 ， 其 中 有 20000 部 的 
标题 中 包含 了 Apollo。 
2. 第 二 个 数据 集 ，Sean Carrey 出 演 了 30000 部 作品 ， 其 中 40 部 的 标题 


中 包含 了 Apollo。 
3. 第 三 个 数据 集 ，Sean Carrey 出 演 了 50 部 作品 ， 其 中 10 部 的 标题 中 包 
£ J Apollo. 


使 用 上 面 的 三 种 数据 集 来 测试 两 种 不 同 的 查询 ， 得 到 的 结果 如 表 5- 
2 所 示 。 


表 5-2: 索引 履 盖 查询 和 非 履 盖 查询 的 测试 结果 





数据 集 RAW 优化 后 的 碍 询 


示例 1 每 秒 5 次 查询 每 秒 5 次 查询 
示例 2 每 秒 7 次 查询 每 秒 35 次 查询 
示例 3 每 秒 2400 次 查询 每 秒 2000 次 查询 


i 


el 


下 面 是 对 结果 的 分 析 : 


。 在 示例 1 中 ， 碍 询 返 回 了 一 个 很 大 的 结果 集 ， 因 此 看 不 到 优化 的 效 
果 。 大 部 分 时 间 都 花 在 读 取 和 发 送 数据 上 了 。 

。 在 示例 2 中 ， 经 过 索引 过 小， 尤其 是 第 二 个 条 件 过 小 后 只 返回 了 很 
少 的 结果 集 ， 优 化 的 效果 非常 明显 : 在 这 个 数据 集 上 性 能 提高 了 5 
倍 ,优化 后 的 碍 询 的 效率 主要 得 益 于 只 需要 读 取 40 行 完整 数据 行 ， 
而 不 是 原 查 询 中 需要 的 30000 行 。 

。 在 示例 3 中 ， 显 示 了 子 人 查询 效率 反而 下 降 的 情况 。 因 为 索引 过 滤 时 


























符合 第 一 个 条 件 的 结果 集 已 经 很 小 ， 所 以 子 查 询 带 来 的 成 本 反而 比 
从 表 中 和 直接 提取 完整 行 更 高 。 











在 大 多 数 存 储 引擎 中 ， 履 盖 索 引 只 能 敢 盖 那些 只 访问 索引 中 部 分 列 
的 查询 。 不 过 ， 可 以 更 进一步 优化 InnoDB。 回 想 一 下 ，InnoDB 的 二 级 
索引 的 叶子 厄 点 都 包含 了 主键 的 值 ， 这 意味 着 InnoDB 的 二 级 索引 可 以 
有 效 地 利用 这 些 “ 人 额外 ”的 主键 列 来 敢 盖 得 询 。 





例如 ，saki la. actor 使 用 InnoDB 存 储 引 擎 ， 并 在 1ast_name 字 段 有 
二 级 索引 ， 虽 然 该 索引 的 列 不 包括 主键 actor_id， 但 也 能 够 用 于 对 
actor_id(li7 m A w: 


mysql> EXPLAIN SELECT actor_id, last_name 
-> FROM sakila.actor WHERE last_name = 'HOPPER'\G 
FOO IOI ICICI IO ICI ICI II J. poy RII I II RR kkk IK Ik 
id: 1 
select_type: SIMPLE 
table: actor 
type: ref 
possible_keys: idx_actor_last_name 
key: idx_actor_last_name 
key_len: 137 
ref: const 
rows: 2 


Extra: Using where; Using index 





未 来 MySQL 版 本 的 改进 


上 面 提 到 的 很 多 限制 都 是 由 于 存储 引擎 AP1 设 计 所 导致 的 ， 目 前 
的 AP1 设 计 不 允许 MySQL 将 过 瀑 条 件 传 到 存储 引擎 层 。 如 果 MySQL 在 后 
续 版 本 能 够 做 到 这 一 点 ， 则 可 以 把 查询 发 送 到 数据 上 ， 而 不 是 像 现在 
这 样 只 能 把 数据 从 存储 引擎 拉 到 服务 器 层 ， 再 根据 查询 条 件 过 滤 。 在 
本 书写 作 之 际 ，MySQL 5. 6 版 本 《未 正式 发 布 ) 包含 了 在 存储 引擎 AP1 
上 所 做 的 一 个 重要 的 改进 ， 其 被 称 为 “索引 条 件 推 送 (index 
condition pushdown) ”。 这 个 特性 将 大 大 改善 现在 的 查询 执行 方 
式 ， 如 此 一 来 上 面 介 绍 的 很 多 技巧 也 就 不 再 需要 了 。 





5.3.7 ”使 用 索引 扫 手 来 做 排序 


MySQL 有 两 种 方式 可 以 生成 有 序 的 结果 : 通过 排序 操作 ;或 者 按 
索引 顺序 扫描 23， 如 果 EXPLAIN 出 来 的 type 列 的 值 为 “index”， 则 说 明 
MySQL 使 用 了 索引 扫描 来 做 排序 (不 要 和 Extra 列 的 “Using index” 搞 混 
WS) 。 





扫描 索引 本 身 是 很 快 的 ， 因 为 只 需要 从 一 条 索引 记录 移动 到 紧 接 着 
的 下 一 条 记录 。 但 如 果 索 引 不 能 覆盖 查询 所 需 的 全 部 列 ， 那 就 不 得 不 每 
扫描 一 条 索引 记录 就 都 回 表 查询 一 次 对 应 的 行 。 这 基本 上 都 是 随机 
IO， 因 此 按 索引 顺序 读 取 数 据 的 速度 通常 要 比 顺 序 地 全 表 扫 描 慢 ， 尤 
其 是 在 IO 密集 型 的 工作 负载 时 。 








MySQL 可 以 使 用 同一 个 索引 既 满足 排序 ， 又 用 于 碍 找 行 。 因 此 ， 
如 果 可 能 ， 设 计 索 引 时 应 该 尽 可 能 地 同时 满足 这 两 种 任务 ， 这 样 是 最 好 
的 。 


只 有 当 索 引 的 列 顺序 和 ORDER BY 子 句 的 顺序 完全 一 致 ， 并 且 所 有 列 
的 排序 方向 《倒序 或 正 序 ) 都 一 样 时 ，MySQL 才 能 够 使 用 索引 来 对 结 
果 做 排序 多。 如 果 查 询 需 要 关联 多 张 表 ， 则 只 有 当 0RDER ”BY 子 句 引 用 
的 字段 全 部 为 第 一 个 表 时 ， 才 能 使 用 索引 做 排序 。ORDER BY 子 句 和 碍 找 
型 得 询 的 限制 是 一 样 的 ;需要 满足 索引 的 最 左前 绥 的 要 求 ; 人 否则 ， 
MySQL 都 需要 执行 排序 操作 ， 而 无 法 利用 索引 排序 。 




















有 一 种 情况 下 ORDER BY 子 句 可 以 不 满足 索引 的 最 左前 绥 的 要 求 ， 束 
征 前 导 列 为 常量 的 时 候 。 如 果 WHERE 子 名 或 者 JOIN 子 句 中 对 这 些 列 指定 
了 和 量 ， 就 可 以 “弥补 ?索引 的 不 足 。 


例如 ，Sakila 示 例 数 据 库 的 表 rental 在 列 Crental_date, 
inventory_id, customer_id) 上 有 名 为 rental_date 的 索引 。 


(rental_date, inventory_id, customer_id): 


CREATE TABLE rental ( 


PRIMARY KEY (rental_id), 

UNIQUE KEY rental_date (rental_date, inventory_id, cust 
KEY idx_fk_inventory_id (inventory_id), 

KEY idx_fk_customer_id (customer_id), 


KEY idx_fk_staff_id (staff_id), 


); 


MySQLFl LE H rental_dateg 53 A FMI AMARA, M 
EXPLAIN 中 可 以 看 到 没有 出 现 文件 排序 Cfilesort) 403; 


mysql> EXPLAIN SELECT rental_id, staff_id FROM sakila.rental 
-> WHERE rental_date = '2005-05-25' 
-> ORDER BY inventory_id, customer_id\G 
FOI ICICI CII IO IO IOI ICI II J. pow RIO IIR IR IR A A A I Kk 
type: ref 
possible_keys: rental_date 
key: rental_date 
rows: 1 


Extra: Using where 








即使 ORDER BY 子 句 不 满足 索引 的 最 左前 绥 的 要 求 ， 也 可 以 用 于 碍 询 
排序 ， 这 是 因为 索引 的 第 一 列 被 指定 为 一 个 常数 。 





还 有 更 多 可 以 使 用 索引 做 排序 的 查询 示例 。 下 面 这 个 查询 可 以 利用 
索引 排 这 ， 是 因为 查询 为 索引 的 第 一 列 提供 了 常量 条 件 ， 而 使 用 第 二 列 
进行 排序 ， 将 两 列 组 合 在 一 起 ， 惑 形成 了 索引 的 最 左前 绥 : 





. WHERE rental_date = '2005-05-25' ORDER BY inventory_id DE 





下 面 这 个 查询 也 没 问 题 ， 因 为 ORDER BY 使 用 的 两 列 就 是 索引 的 最 左 


HIZR: 


下 面 是 一 些 不 能 使 用 索引 做 排序 的 查询 : 





。 下 面 这 个 但 询 使 用 了 两 种 不 同 的 排序 方向 ， 但 是 索引 列 都 是 正 序 排 
序 的 : 


. WHERE rental date = '2005-05-25' ORDER BY inventory_id DE 


。 下 面 这 个 碍 询 的 ORDER BY 子 句 中 引用 了 一 个 不 在 索引 中 的 列 : 


. WHERE rental_date='2005-05-25' ORDER BY inventory_id, stat 


。 下 面 这 个 碍 询 在 索引 列 的 第 一 列 上 是 范围 条 件 ， 所 以 MySQL 无 法 
使 用 索引 的 其 余 列 : 


. WHERE rental_date > '2005-05-25' ORDER BY inventory_id, c 


e 这 个 查询 在 y inventory_id 列 上 有 多 个 等 于 条 件 。 对 于 排序 来 资 ， 这 
也 是 一 种 范围 得 询 : 


. WHERE rental_date = '2005-05-25' AND inventory_id IN(1, 2) 
id; 


下 面 这 个 例子 理论 上 是 可 以 使 用 索引 进行 关联 排序 的 ， 但 由 于 优化 
器 在 优化 时 将 film_actor 表 当 作 关 联 的 第 二 张 表 ， 所 以 实际 上 无 法 使 用 
索引 : 


mysql> EXPLAIN SELECT actor_id, title FROM sakila.film_actor 


I a aR A S ae td E 
| 


table | Extra | 
+------------ +---------------------------------------------- + 
| film | Using index; Using temporary; Using filesort | 
| film actor | Using index 
+------------ +---------------------------------------------- + 





使 用 索引 做 排序 的 一 个 最 重要 的 用 法 是 当 碍 询 同时 有 ORDER BY 和 
LIMIT 子 句 的 时 候 。 后 面 我 们 会 具体 介绍 这 些 内 容 。 


5.3.8 ”压缩 〈 前 缀 压缩 ) 索引 


MyISAM 使 用 前 级 压缩 来 减少 索引 的 大 小 ， 从 而 让 更 多 的 索引 可 以 





放 入 内 存 中 ， 这 在 某 些 情况 下 能 极 大 地 提高 性 能 。 默 认 只 压缩 字符 串 ， 
但 通过 参数 设置 也 可 以 对 整数 做 压缩 。 MyISAM 压 缩 每 个 索引 块 的 方法 
是 ， 先 完全 保存 索引 块 中 的 第 一 个 值 ， 然 后 将 其 他 值 和 第 一 个 值 进行 比 
较 得 到 相同 前 绥 的 字 节 数 和 剩余 的 不 同 后 绥 部 分 ， 把 这 部 分 存储 起 来 即 
可 。 例 如 ， 索 引 块 中 的 第 一 个 值 是 “perform”， 第 二 个 值 

是 “performance”， 那 么 第 二 个 值 的 前 缀 压缩 后 存储 的 是 类 似 “7,ance” 这 
样 的 形式 。MyISAM 对 行 指针 也 采用 类 似 的 前 缀 压缩 方式 。 











压缩 块 使 用 更 少 的 空间 ， 代 价 是 某 些 操作 可 能 更 慢 。 因 为 每 个 值 的 
压缩 前 级 都 依赖 前 面 的 值 ， 所 以 MyISAM 查 找 时 无 法 在 索引 块 使 用 二 分 
查找 而 只 能 从 头 开始 扫描 。 正 序 的 扫 搬 速度 还 不 错 ， 但 是 如 末 是 倒序 扫 
描 一 一 例如 ORDER BY DESC 一 一 就 不 是 很 好 了 。 上 所 有 在 块 中 查找 某 一 行 
的 操作 平均 都 需要 扫描 半 个 索引 块 。 








汕 试 表 明 ， 对 于 CPU 密集 型 应 用 ， 因 为 扫描 需要 随机 碍 找 ， 压 缩 索 
引 使 得 MYISAM 在 索引 查找 上 要 慢 好 几 倍 。 压 给 索 引 的 倒序 扫描 就 更 慢 
了 。 压 缩 索 引 需要 在 CPU 内 存 资源 与 磁盘 之 间 做 权衡 。 压 缩 案 引 可 能 只 
再 要 十 分 之 一 大 小 的 磁盘 空间 ， 如 果 是 IO 密集 型 应 用 ， 对 茶 些 查询 市 
来 的 好 处 会 比 成 本 多 很 多 。 














可 以 在 CREATE TABLE 语句 中 指定 PACK_KEYS 参 数 来 控制 索引 压缩 
的 方式 。 


5.3.9 ”元 余 和 重复 索引 


MySQL 人 允许 在 相同 列 上 创建 多 个 索引 ， 无 论 是 有 意 的 还 是 无 意 
的 。MySQL 珊 要 单独 维护 重复 的 索引 ， 并 且 优 化 器 在 优化 碍 询 的 时 候 











也 需要 逐个 地 进行 考虑 ， 这 会 影响 性 能 。 





重复 索引 是 指 在 相同 的 列 上 按照 相同 的 顺序 创建 的 相同 类 型 的 索 
引 。 应 该 避免 这 样 创 建 重复 索引 ， 发 现 以 后 也 应 该 立即 移 除 。 


有 时 会 在 不 经 意 间 创建 了 重复 索引 ， 例 如 下 面 的 代码 : 


CREATE TABLE test ( 
ID INT NOT NULL PRIMARY KEY, 
A INT NOT NULL, 
B INT NOT NULL, 
UNIQUE(ID), 
INDEX(ID) 


) ENGINE=InnoDB; 


一 个 经 验 不 足 的 用 户 可 能 是 想 创建 一 个 主键 ， 先 加 上 唯一 限制 ， 然 
后 再 加 上 索引 以 供 查 询 人 使用。 事实 上 ，MySQL 的 唯一 限制 和 主键 限制 
都 是 通过 索引 实现 的 ， 因 此 ， 上 面 的 写法 实际 上 在 相同 的 列 上 创建 了 三 
个 重复 的 索引 。 通 第 并 没有 理由 这 样 做 ， 除 非 是 在 同一 列 上 创建 不 同类 
型 的 索引 来 满足 不 同 的 查询 需求 多 。 





风 余 索引 和 重复 索引 有 一 些 不 同 。 如 果 创 建 了 索引 CA, B), HE 
ERI A 就 是 见 余 索引 ， 因 为 这 只 是 前 一 个 索引 的 前 级 索引 。 因 此 
索引 (A, B) 也 可 以 当 作 索引 CA) 来 使 用 《〈 这 种 元 余 只 是 对 B-Tree 索 
引 来 说 的 ) 。 但 是 如 果 再 创建 索引 〈B，A) ， 则 不 是 元 余 索引 ， 索 引 
B) 也 不 是 ， 因 为 B 不 是 索引 (A, B) 的 最 左前 级 列 。 另 外 ， 其 他 不 同 
类 型 的 索引 《例如 哈 希 索引 或 者 全 文 索引 ) 也 不 会 是 B-Tree 索 引 的 见 余 
Al, MCCAIN. 


























见 余 索引 通常 发 生 在 为 表 添加 新 索引 的 时 候 。 例 如 ， 有 人 可 能 会 增 
加 一 个 新 的 索引 〈A，B) 而 不 是 扩展 已 有 的 索引 A 。 还 有 一 种 情况 
是 将 一 个 索引 扩展 为 (A，1D) ， 其 中 ID 是 主键 ， 对 于 InnoDB 来 说 主键 
列 已 经 包含 在 二 级 索引 中 了 ， 所 以 这 也 是 元 余 的 。 














大 多 数 情况 下 都 不 需要 元 余 索 引 ， 应 该 尽量 扩展 已 有 的 索引 而 不 是 
创建 新 索引 。 但 也 有 时 候 出 于 性 能 方面 的 考虑 需要 元 余 索 引 ， 因 为 扩展 
己 有 的 索引 会 导致 其 变 得 太 大 ， 从 而 影 啊 其 他 使 用 该 索引 的 得 询 的 性 


au 
HE o 














例如 ， 如 果 在 整数 列 上 有 一 个 索引 ， 现 在 需要 额外 增加 一 个 很 长 的 
VARCHAR 列 来 扩展 该 索引 ， 那 性 能 可 能 会 急剧 下 降 。 特 别 是 有 碍 询 把 这 
个 索引 当 作 履 盖 索引 ， 或 者 这 是 MyISAM 表 并 且 有 很 多 范围 查询 〈 由 于 
MyISAM 的 前 缀 压缩 ) 的 时 候 。 








考虑 一 下 前 面 “在 InnoDB 中 按 主 键 顺 序 插入 行 ” 一 节 提 到 的 user info 
表 。 这 个 表 有 1000000 行 ， 对 每 个 state_id 值 大 概 有 20000 条 记录 。 
在 state_id 列 有 一 个 索引 对 下 面 的 查询 有 用 ， 假 设 查询 名 为 Ql: 


mysql> SELECT count(*) FROM userinfo WHERE state_id=5; 


A Fed EE MRR H EV EA AT EEK ce BEY SK 
(QPS) 。 还 有 一 个 相关 碍 询 需 要 检索 几 个 列 的 值 ， 而 不 是 只 统计 行 
数 ， 假 设 名 为 Q2: 





mysql> SELECT count(*) FROM userinfo WHERE state_id=5; 


对 于 这 个 查询 ， 测 试 结 果 QPS 小 于 10402。 提 升 该 查询 性 能 的 最 简单 
办 法 就 是 扩展 索引 为 (state_id，city，address) ， 让 索引 能 履 羡 查 


询 : 


mysql> ALTER TABLE userinfo DROP KEY state_id, 


-> ADD KEY state_id 2 (state_id, city, address); 





索引 扩展 后 ，Q2 运 行 得 更 快 了 ， 但 是 Q1 却 变 慢 了 。 如 果 我 们 想 让 
两 个 查询 都 变 得 更 快 ， 就 需要 两 个 索引 ， 尽 管 这 样 一 来 原来 的 单列 索引 
是 元 余 的 了 。 表 5-3 显 示 这 两 个 查询 在 不 同 的 索引 策略 下 的 详细 结果 ， 
分 别 使 用 MyISAM 和 InnoDB 存 储 引 苟 。 注 童 到 只 有 state_id_2 索 引 时 ， 
InnoDB3 引 擎 上 的 查询 Q1 的 性 能 下 降 并 不 明显 ， 这 是 因为 InnoDB 没 有 使 
用 索引 压缩 。 











表 5-3: 使 用 不 同 索 引 策 略 的 SELECT 查询 的 QPS 测 试 结 


只 有 state id 只 有 state id 2 同时 有 state id 和 state_ id_2 


MyISAM, Q1 114.96 25.40 112.19 
MyISAM, Q2 9.97 16.34 16:37 
InnoDB, Ql 108.55 100.33 107.97 
InnoDB, Q2 12.12 28.04 28.06 














有 两 个 索引 的 缺点 是 索引 成 本 更 高 。 表 5-4 显 示 了 回 表 中 插入 100 万 
行 数据 所 需要 的 时 间 。 





表 5-4: 在 使 用 不 同 索 引 策略 时 材 入 100 万 行 数据 的 速度 


只 有 state id ”同时 有 state_id 和 state_id_2 
InnoDB， 对 两 个 索引 都 有 足够 的 内 容 80 Fb 136 fb 
MyISAM, 只 有 一 个 索引 有 足够 的 内 容 72 $b 470 Fb 





可 以 看 到 ， 表 中 的 索引 越 多 插入 速度 会 越 慢 。 一 般 来 将， 增加 新 过 
引 将 会 导致 INSERT、UPDATE、DELETE 等 操作 的 速度 变 慢 ， 特 别 是 当 新 增 
索引 后 导致 达到 了 和 内 存 瓶 锋 的 时 候 。 解 决 元 余 索 引 和 重复 索引 的 方法 很 


简单 ， 删 除 这 些 索 引 束 可 以 ， 但 首先 要 做 的 是 找 出 这 样 的 罕 引 。 可 以 通 
过 写 一 些 复杂 的 访问 INFORMATION_SCHEMA 表 的 查询 来 找 ， 不 过 还 有 两 个 
更 简单 的 方法 。 可 使 用 Shlomi Noach 的 common_schema 中 的 一 些 视 图 来 
定位 ，common_schema 是 一 系列 可 以 安装 到 服务 器 上 的 常用 的 存储 和 视 
图 Chttp://code.google.com/p/common-schema/) 。 这 比 自己 编写 查询 要 
快 而 且 简 单 。 另 外 也 可 以 使 用 Percona Toolkit 中 的 pt-duplicate-key- 
checker， 该 工具 通过 分 析 表 结构 来 找 出 见 余 和 重复 的 索引 。 对 于 大 型 服 
务 器 来 说 ， 使 用 外 部 的 工具 可 能 更 合适 些 ， 如果 服务 器 上 有 大 量 的 数据 
或 者 大 量 的 表 ， 查 询 INFORMATION_SCHEMA 表 可 能 会 导致 性 能 问题 。 








在 决定 哪些 索引 可 以 被 删除 的 时 候 要 非常 小 心 。 回 忆 一 下 ， 在 前 面 
的 InnoDB 的 示例 表 中 ， 因 为 二 级 索引 的 叶子 节点 包含 了 主键 值 ， 所 以 
在 列 CA) 上 的 索引 就 相当 于 在 (A，1D〉 上 的 索引 。 如 果 有 像 WHERE 
A=5 ORDER BY 1D 这 样 的 查询 ， 这 个 索引 会 很 有 作用 。 但 如 果 将 索引 扩 
EJI (A，B) ， 则 实际 上 就 变 成 了 CA, B, 1D), BA EMA 
ORDER BY 子 句 就 无 法 使 用 该 索引 做 排序 ， 而 只 能 用 文件 排序 了 。 所 以 ， 
建议 使 用 Percona 工 具 箱 中 的 ptupgrade 工 具 来 仔细 检查 计划 中 的 索引 变 
更 。 


5.3.10 ”未 使 用 的 过 引 


除了 见 余 索引 和 重复 索引 ， 可 能 还 会 有 一 些 服务 器 永远 不 用 的 索 
引 。 这 样 的 索引 完全 是 累 歼 ， 建 议 考 虑 删除 499。 有 两 个 工具 可 以 帮助 
定位 未 使 用 的 索引 。 最 简单 有 效 的 办 法 是 在 Percona Server 或 者 MariaDB 
中 先 打开 userstates 服 务 器 变量 (默认 是 关闭 的 ) ， 然 后 让 服务 器 正常 
运行 一 段 时 间 ， 再 通过 查询 INFORMAT1ON_SCHEMA. INDEX_STATIST1CS 就 











能 得 到 每 个 索引 的 使 用 频率 。 


另外 ， 还 可 以 使 用 Percona Toolkit 中 的 pt-index-usage， 该 工具 可 以 
读 取 得 询 日 志 ， 并 对 日 志 中 的 每 条 得 询 进行 EXPLAIN 操 作 ， 然 后 打印 出 
关于 索引 和 得 询 的 报告 。 这 个 工具 不 仅 可 以 找 出 哪些 索引 是 未 使 用 的 ， 
还 可 以 了 解 得 询 的 执行 计划 一 一 例如 在 某 些 情况 有 些 类 似 的 查询 的 执行 
方式 不 一 样 ， 这 可 以 帮助 你 定位 到 那些 偶尔 服务 质量 差 的 查询 ， 优 化 它 
们 以 得 到 一 致 的 性 能 表现 。 该 工具 也 可 以 将 结果 写 入 到 MySQL 的 表 
中 ， 方 便 查 询 结 果 。 


5.3.11 索引 和 锁 


索引 可 以 让 碍 询 锁定 更 少 的 行 。 如 宋 你 的 查询 从 不 访问 那些 不 需要 
的 行 ， 那 么 束 会 锁定 更 少 的 行 ， 从 两 个 方面 来 看 这 对 性 能 都 有 好 处 。 首 
先 ， 昌 然 innoDB 的 行 锁 效 率 很 高 ， 内 存 使 用 也 很 少 ， 但 是 锁定 行 的 时 
候 仍然 会 带 来 额外 开销 ; 其次， 锁定 超过 需要 的 行 会 增加 锁 争 用 并 减少 
并 发 性 。 

















InnoDB 只 有 在 访问 行 的 时 候 才 会 对 其 加 锁 ， 而 索引 能 够 减少 
InnoDB 访 问 的 行 数 ， 从 而 减少 锁 的 数量 。 但 这 只 有 当 InnoDB 在 存储 引 
擎 层 能 够 过 滤 掉 所 有 不 需要 的 行 时 才 有 效 。 如 果 索 引 无 法 过 滤 掉 无 效 的 
行 ， 那 么 在 mnoDB 检 索 到 数据 并 返回 给 服务 器 层 以 后 ，MySQL 服 务 器 
才能 应 用 WHERE 子 句 包 。 这 时 已 经 无 法 避免 锁定 行 了 : InnoDB 已 经 锁 住 
了 这 些 行 ， 到 适当 的 时 候 才 释放 。 在 MySQL 5.1 和 更 新 的 版 本 中 ， 
InnoDB 可 以 在 服务 器 端 过 滤 掉 行 后 束 释 放 锁 ,但 是 在 早期 的 MySQL 版 
本 中 ，InnoDB 只 有 在 事务 提交 后 才能 释放 锁 。 





通过 下 面 的 例子 再 次 使 用 数据 库 Sakila 很 好 地 解释 了 这 些 情 况 : 


mysql> SET AUTOCOMMIT=0; 
mysql> BEGIN; 
mysql> SELECT actor_id FROM sakila.actor WHERE actor_id < 5 


-> AND actor_id <> 1 FOR UPDATE; 


+---------- 十 
| actor id | 
+---------- 十 
| 2 | 
| 3 | 
| 4 | 
+---------- + 





这 条 得 询 仅 仅 会 返回 2 一 4 之 间 的 行 ， 但 是 实际 上 获取 了 1 一 4 之 间 的 
行 的 排他 锁 。InnoDB 会 锁 住 第 1 行 ， 这 是 因为 MySQL 为 该 查询 选择 的 执 
行 计划 是 索引 范围 扫描 : 


mysql> EXPLAIN SELECT actor id FROM sakila.actor 
-> WHERE actor_id < 5 - actor_id <> 1 FOR UPDATE; 


+----+------------- +-------+------- +--------- +-------------------------- 十 
| id | select_type | table | type l key | Extra | 
+----+-------------+-------+-------+---------+-------------------------- 十 
| 1 | SIMPLE | actor | range | PRIMARY | Using where; Using index l 
+----+------------- +------- +------- +---------+-------------------------- 


换 句 话 说， 底层 存储 引擎 的 操作 是 “从 索引 的 开头 开始 获取 满足 条 
件 actor_id<5 的 记录 ”， 服 务 器 并 没有 告诉 mnoDB 可 以 过 滤 第 1 行 的 
WHERE 条 件 。 om hen sa where”， 这 表示 
MySQL 服 务 器 将 存储 引擎 返回 行 以 后 再 应 用 WHERE 过 滤 条 件 。 


下 面 的 第 二 个 查询 就 能 证 明 第 1 行 确实 已 经 被 锁定 ， 尽 管 第 一 个 查 
询 的 结果 中 并 没有 这 个 第 1 行 。 保 持 第 一 个 连接 打开 ， 然 后 开局 第 二 个 
连接 并 执行 如 下 查询 : 





mysql> SET AUTOCOMMIT=0; 


mysql> BEGIN; 

mysql> SELECT actor_id FROM sakila.actor WHERE actor_id = 1 F 

这 个 查询 将 会 挂 起 ， 直 到 第 一 个 事务 释放 第 1 行 的 锁 。 这 个 行为 对 
于 基于 语句 的 复制 〈 将 在 第 10 章 讨论 ) 的 正常 运行 来 说 是 必要 的 。 匀 








就 像 这 个 例子 显示 的 ， 即 使 使 用 了 索引 ，InnoDB 也 可 能 锁 住 一 些 
不 需要 的 数据 。 如 果 不 能 使 用 索引 得 找 和 锁定 行 的 话 问题 可 能 会 更 粳 
糕 ，MySQL 会 做 全 表 扫 描 并 锁 住 所 有 的 行 ， 而 不 管 是 不 是 需要 。 








关于 InnoDB、 索 引 和 多 有 一 些 很 少 有 人 知道 的 细节 : InnoDB 在 二 
级 索引 上 使 用 共享 OZ) 锁 ， 但 访问 主键 索引 需要 排他 〈 写 ) 锁 。 这 消 
除了 使 用 履 善 索引 的 可 能 性 ， 并 且 使 得 SELECT FOR UPDATE 比 LOCK IN 
SHARE MODE 或 非 锁 定 查 询 要 慢 很 多 。 





54 BS SPSS 


理解 索引 最 好 的 办 法 是 结合 示例 ， 所 以 这 里 准备 了 一 个 索引 的 案 
例 。 











假设 要 设计 一 个 在 线 约会 网 站 ， 用 户 信息 表 有 很 多 列 ， 包 括 国家 、 
地 区 、 城 市 、 性 别 、 眼 睛 颜色 ， 等 等 。 网 站 必须 支持 上 面 这 些 特征 的 各 
种 组 合 来 搜索 用 户 ， 还 必须 多 许 根据 用 户 的 最 后 在 线 时 间 、 其 他 会 员 对 
用 户 的 评分 等 对 用 户 进行 排序 并 对 结果 进行 限制 。 如 何 设计 索引 满足 上 
面 的 复杂 需求 呢 ? 

















出 人 意料 的 是 第 一 件 需要 考虑 的 事情 是 需要 使 用 索引 来 排序 ， 还 是 
先 检 索 数 据 再 排序 。 使 用 索引 排序 会 严格 限制 索引 和 碍 询 的 设计 。 例 
如 ， 如 果 和 希望 使 用 索引 做 根据 其 他 会 员 对 用 户 的 评分 的 排序 ， 则 WHERE 
条 件 中 的 age BETWEEN 18 AND 25 就 无 法 使 用 索引 。 如 果 MySQL 使 用 某 
个 索引 进行 范围 得 询 ， 也 惑 无 法 再 使 用 另 一 个 索引 【或 者 是 该 索引 的 后 
续 字 段 ) 进行 排序 了 。 如 果 这 是 很 常见 的 WHERE 条 件 ， 那 么 我 们 当然 就 
会 认为 很 多 查询 需要 做 排序 操作 《例如 文件 排序 filesort) 。 


541 文 持 多 种 过 滤 条 件 


现在 需要 看 看 哪些 列 拥有 很 多 不 同 的 取 值 ， 哪 些 列 在 WHERE 子 句 中 
出 现 得 最 频 系 。 在 有 更 多 不 同 值 的 列 上 创建 索引 的 选择 性 会 更 好 。 一 般 
来 说 这 样 做 都 是 对 的 ， 因 为 可 以 让 MySQL 更 有 效 地 过 滤 掉 不 需要 的 
行 。 














country 列 的 选择 性 通常 不 高 ， 但 可 能 很 多 查询 都 会 用 到 。sex 列 的 
选择 性 肯定 很 低 ， 但 也 会 在 很 多 查询 中 用 到 。 所 以 考虑 到 使 用 的 频率 ， 
还 是 建议 在 创建 不 同 组 合 索 引 的 时 候 将 (sex，country) 列 作 为 前 级 。 











但 根据 传统 的 经 验 不 是 说 不 应 该 在 选择 性 低 的 列 上 创建 索引 的 吗 ? 
那 为 什么 这 里 要 将 两 个 选择 性 都 很 低 的 字段 作为 索引 的 前 绥 列 ?我 们 的 
脑子 坏 了 ? 


我 们 的 脑子 当然 没 坏 。 这 么 做 有 两 个 理由 : 第 一 点 ， 如 前 所 述 几乎 
所 有 的 碍 询 都 会 用 到 sex 列 。 前 面 曾 所 到 ， 几 乎 每 一 个 查询 都 会 用 到 sex 
列 ， 甚 至 会 把 网 站 设计 成 每 次 都 只 能 按 茶 一 种 性 别 搜索 用 户 。 更 重要 的 
一 点 是 ， 索 引 中 加 上 这 一 列 也 没有 坏处 ， 即 使 查询 没有 使 用 sex 列 也 可 
以 通过 下 面 的 “ 决 穹 ? 绕 过 。 


SiR HE: 如 果 某 个 查询 不 限制 性 别 ， 那 么 可 以 通过 在 得 询 
条 件 中 新 增 AND SEX IN 〈'm'，'f') 来 让 MySQL 选 择 该 索引 。 这 样 写 并 
不 会 过 滤 任 何 行 ， 和 没有 这 个 条 件 时 返回 的 结果 相同 。 但 是 必须 加 上 这 
个 列 的 条 件 ，MySQL 才 能 够 匹配 索引 的 最 左前 绥 。 这 个 “ 诀 罕 ?在 这 类 场 
景 中 非常 有 效 ， 但 如 果 列 有 太 多 不 同 的 值 ， 就 会 让 INO 列 表 太 长 ， 这 样 
做 就 不 行 了 。 


这 个 案例 显示 了 一 个 基本 原则 : 考虑 表 上 所 有 的 选项 。 当 设计 索引 
时 ， 不 要 只 为 现 有 的 查询 考 虑 需要 哪些 索引 ， 还 需要 考虑 对 查询 进 行 优 
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碍 询 的 效率 ， 那 么 应 该 想 一 下 是 否 能 优化 原来 的 查询 。 应 该 同时 优化 碍 
询 和 索引 以 找到 最 佳 的 平衡 ， 而 不 是 闭门造车 去 设计 最 完美 的 索引 。 




















接 下 来 ， 需 要 考虑 其 他 常见 WHERE 条 件 的 组 合 ， 并 需要 了 解 哪些 组 


合 在 没有 合适 索引 的 情况 下 会 很 慢 。 (sex, country, age) 上 的 索引 
就 是 一 个 很 明显 的 选择 ， 男 外 很 有 可 能 还 需要 (sex，country， 
region, age) 和 (sex, country, region, city, age) 这 样 的 组 合 索 
Jls 








这 样 束 会 需要 大 量 的 索引 。 如 果 想 尽 可 能 重用 索引 而 不 是 建立 大 量 
的 组 合 索 引 ， 可 以 使 用 前 面 提 到 的 INO 的 技巧 来 避免 同时 需要 (sex， 
country, age) 和 (sex, country, region, age) 的 索引 。 如 果 没 有 
指定 这 个 字段 搜索 ， 就 需要 定义 一 个 全 部 国家 列表 ， 或 者 国家 的 全 部 地 
区 列表 ， 来 确保 索引 前 级 有 同样 的 约束 (组 合 所 有 国家 、 地 区 、 性 别 将 
会 是 一 个 非常 大 的 条 件 ) 。 





这 些 索 引 将 满足 大 部 分 最 利 见 的 搜索 查询 ， 但 是 如 何 为 一 些 生僻 的 
搜索 条 件 (比如 has pictures、eye color、hair color 和 education) 
来 设计 索引 呢 ? 这 些 列 的 选择 性 高 、 使 用 也 不 频繁 ， 可 以 选择 忽略 它 
们 ， 让 MySQL 多 扫描 一 些 额 外 的 行 即 可 。 另 一 个 可 选 的 方法 是 在 age 列 
的 前 面 加 上 这 些 列 ， 在 碍 询 时 使 用 前 面 提 到 过 的 1N O 技术 来 处 理 搜 索 时 
没有 指定 这 些 列 的 场景 。 








你 可 能 已 经 注意 到 了 ， 我 们 一 直 将 age 列 放 在 索引 的 最 后 面 。age 列 
有 什么 特殊 的 地 方 吗 ? 为 什么 要 放 在 索引 的 最 后 ? 我 们 总 是 尽 可 能 让 
MySQL 使 用 更 多 的 索引 列 ， 因 为 查询 只 能 使 用 索引 的 最 左前 级， 直到 
遇 到 第 一 个 范围 条 件 列 。 前 面 提 到 的 列 在 WHERE 子 句 中 都 是 等 于 条 件 ， 
但 是 age 列 则 多 半 是 范围 查询 〈 例 如 查找 年 龄 在 18 一 25 岁 之 间 的 人 ) 。 


当然 ， 也 可 以 使 用 IN 0) 来 代 蔡 范围 查询 ， 例 如 年 龄 条 件 改写 为 
IN (18, 19, 20, 21, 22, 23, 24, 25) ， 但 不 是 所 有 的 范围 查询 都 可 
以 转换 。 这 里 描述 的 基本 原则 是 ， 尽 可 能 将 需要 做 范围 查询 的 列 放 到 索 
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前 面 提 到 可 以 在 索引 中 加 入 更 多 的 列 ， 并 通过 1N 0 OAA aE 
不 在 WHERE 子 句 中 的 列 。 但 这 种 技巧 也 不 能 小 用， 人 否则 可 能 会 带 来 嘛 
烦 。 因 为 每 额外 增加 一 个 INO 条 件 ， 优 化 器 需要 做 的 组 合 都 将 以 指数 形 
式 增加 ， 最 终 可 能 会 极 大 地 降低 查询 性 能 。 考 虑 下 面 的 WHERE 子 人 句 : 


WHERE eye_color IN('brown', 'blue', 'hazel' ) 
AND hair_color IN('black', 'red', 'blonde', 'brown' ) 


AND sex IN('M', 'F') 


优化 器 则 会 转化 成 4x3x2=24 种 组 合 ， 执 行 计划 需要 检查 WHERE 子 名 
中 所 有 的 24 种 组 合 。 对 于 MySQL 来 说 ，24 种 组 合并 不 是 很 夸张 ， 但 如 
果 组 合 数 达到 上 千 个 则 需要 特别 小 心 。 老 版 本 的 MySQL 在 INO 组 合 条 
件 过 多 的 时 候 会 有 很 多 问题 。 查 询 优 化 可 能 需要 花 很 多 时 间 ， 并 消耗 大 
量 的 内 存 。 新 版 本 的 MySQL 在 组 合 数 超过 一 定数 量 后 就 不 再 进行 执行 
计划 评估 了 ， 这 可 能 会 导致 MySQL 不 能 很 好 地 利用 索引 。 


5.4.2 ”避免 多 个 范围 条 件 


Avoiding Multiple Range Conditions 




















假设 我 们 有 一 个 last_online 列 并 希望 通过 下 面 的 查询 显示 在 过 去 几 
周 上 线 过 的 用 户 : 
WHERE eye_color IN('brown', 'blue', 'hazel' ) 


AND hair_color IN('black', 'red', 'blonde', 'brown' ) 


AND sex IN('M', 'F') 


AND last_online > DATE_SUB(NOW(), INTERVAL 7 DAY) 


AND age BETWEEN 18 AND 25 





什么 是 范围 条 件 ? 


从 EXPLAIN 的 输出 很 难 区 分 MySQL 是 要 查询 范围 值 ， 还 是 查询 列表 
值 。EXPLAIN 使 用 同样 的 词 “range” 来 描述 这 两 种 情况 。 例 如 ， 从 
type 列 来 看 ，MySQL 会 把 下 面 这 种 查询 当 作 是 “range” 类 型 : 


mysql> EXPLAIN SELECT actor_id FROM sakila.actor 
-> WHERE actor_id > 45\G 
FOO ICICI IO ICICI ICICI q4. pow RII IOI I I IOI I ak 
id: 1 
select_type: SIMPLE 
table: actor 


type: range 
但 是 下 面 这 条 查询 呢 ? 


mysql> EXPLAIN SELECT actor_id FROM sakila.actor 
-> WHERE actor_id IN(1, 4, 99)\G 
FORO IOI IO IO ICICI IOI IOI yy RII III I IOI A ak 
id: 1 
select_type: SIMPLE 
table: actor 


type: range 


从 EXPLAIN 的 结果 是 无 法 区 分 这 两 者 的 ， 但 可 以 从 值 的 范围 和 多 
个 等 于 条 件 来 得 出 不 同 。 在 我 们 看 来 ， 第 二 个 查询 就 是 多 个 等 值 条 件 
查询 。 


我 们 不 是 挑剔 : 这 两 种 访问 效率 是 不 同 的 。 对 于 范围 条 件 查询 ， 
MySQL 无 法 再 使 用 范围 列 后 面 的 其 他 索引 列 了 ， 但 是 对 于 “多 个 等 值 
条 件 查询 ” 则 没有 这 个 限制 。 





这 个 查询 有 一 个 问题 : 它 有 两 个 范围 条 件 ，last_online 列 和 age 





列 ，MySQL 可 以 使 用 last_online 列 索引 或 者 age 列 索引 ， 但 无 法 同时 
使 用 它们 。 


如 果 条 件 中 只 有 last_online 而 没有 age， 那 么 我 们 可 能 考虑 在 索引 
的 后 面 加 上 last_online 列 。 这 里 考虑 如 果 我 们 无 法 把 age 字 上 段 转 换 为 一 
个 INO 的 列表 ， 并 且 仍 要 求 对 于 同时 有 1ast_online 和 age 这 两 个 维度 的 
范围 查询 的 速度 很 快 ， 那 该 怎么 办 ?答案 是 ， 很 遗憾 没有 一 个 直接 的 办 
法 能 够 解决 这 个 问题 。 但 是 我 们 能 够 将 其 中 的 一 个 范围 得 询 转换 为 一 个 
简单 的 等 值 比较 。 为 了 实现 这 一 点 ， 我 们 需要 事先 计算 好 一 个 active 
列 ， 这 个 字段 由 定时 任务 来 维护 。 当 用 户 每 次 登录 时 ， 将 对 应 值 设置 为 
1， 并 且 将 过 去 连续 七 天 未 曾 登 录 的 用 户 的 值 设 置 为 0。 

















这 个 方法 可 以 让 MySQL 使 用 (active, sex, country, age) % 
引 。active 列 并 不 是 完全 精确 的 ， 但 是 对 于 这 类 查询 来 说， 对 精度 的 要 
求 也 没有 那么 高 。 如 果 需 要 精确 数据 ， 可 以 把 last_online 列 放 到 WHERE 
子 句 ， 但 不 加 入 到 索引 中 。 这 和 本 章 前 面 通过 计算 URL 哈 锅 值 来 实现 
URL 的 快速 查找 类 似 。 所 以 这 个 查询 条 件 没 法 使 用 任何 索引 ， 但 因为 这 
个 条 件 的 过 滤 性 不 高 ， 即 使 在 索引 中 加 入 该 列 也 没有 太 大 的 帮助 。 换 个 














角度 来 说， 缺乏 合适 的 索引 对 该 得 询 的 影响 也 不 明显 。 


到 目前 为 止 ， 我 们 可 以 看 到 : 如 果 用 户 和 希望 同时 看 到 活跃 和 不 活跃 
的 用 户 ， 可 以 在 查询 中 使 用 INO 列表 。 我 们 已 经 加 入 了 很 多 这 样 的 列 
表 ， 但 男 外 一 个 可 选 的 方案 束 只 能 是 为 不 同 的 组 合 列 创建 单独 的 索引 。 
至 少 需要 建立 如 下 的 索引 : (active, sex, country, age) , 
(active, country, age) , (sex, country, age) 和 (country, 
age) 。 这 些 索 引 对 某 个 具体 的 碍 询 来 说 可 能 都 是 更 优化 的 ， 但 是 考虑 
到 索引 的 维护 和 额外 的 空间 占用 的 代价 ， 这 个 可 选 方案 就 不 是 一 个 好 策 
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在 这 个 采 例 中 ， 优 化 器 的 特性 是 影响 索引 打上 略 的 一 个 很 重要 的 因 
素 。 如 果 未 来 版 本 的 MySQL 能 够 实现 松散 索引 扫描 ， 束 能 在 一 个 索引 
上 使 用 多 个 范围 条 件 ， 那 也 束 不 需要 为 上 面 考虑 的 这 类 查询 使 用 INO 列 
表 了 。 


5.4.3 ”优化 排序 


在 这 个 学 习 案例 中 ， 最 后 要 介绍 的 是 排序 。 使 用 文件 排序 对 小 数据 
集 是 很 快 的， 但 如 果 一 个 查询 匹配 的 结果 有 上 百 万 行 的 话 会 怎样 ? 例如 
如 果 WHERE 子 句 只 有 sex 列 ， 如 何 排序 ? 

















对 于 那些 选择 性 非常 低 的 列 ， 可 以 增加 一 些 特殊 的 索引 来 做 排序 。 
例如 ， 可 以 创建 Csex, rating) 索引 用 于 下 面 的 查询 : 





mysql> SELECT<cols> FROM profiles WHERE sex='M' ORDER BY ra 


这 个 查询 同时 使 用 Y ORDER BY 和 LIMIT， 如 果 没 有 索引 的 话 会 很 


ei 





即使 有 索引 ， 如 果 用 户 界 面 上 需要 翻 页 ， 并 且 翻 页 翻 到 比较 靠 后 时 
查询 也 可 能 非常 慢 。 下 和 面 这 个 查询 束 通 过 ORDER ”BY 和 LIMIT 偏 移 量 的 组 
合 翻 页 到 很 后 面 的 时 候 : 


mysql> SELECT<cols> FROM profiles WHERE sex='M' ORDER BY ra 


无 论 如 何 创 建 索 引 ， 这 种 查询 都 是 个 严重 的 问题 。 因 为 随 着 侦 移 量 
的 增加 ，MySQL 需 要 花费 大 量 的 时 间 来 扫描 需要 丢弃 的 数据 。 反 范式 
化 、 预 先 计算 和 缓存 可 能 是 解决 这 类 和 查询 的 仅 有 策略 。 一 个 更 好 的 办 法 
是 限制 用 户 能 够 翻 页 的 数量 ， 实 际 上 这 对 用 户 体 验 的 影响 不 大 ， 因 为 用 
户 很 少 会 真正 在 乎 搜索 结果 的 第 10000 页 。 








优化 这 类 索引 的 另 一 个 比较 好 的 策略 是 使 用 延迟 关联 ， 通 过 使 用 履 
着 索引 得 询 返 回 需要 的 主键 ， 再 根据 这 些 主键 关联 原 表 获 得 需要 的 行 。 
这 可 以 减少 MySQL 扫 描 那 些 需要 丢 痉 的 行 数 。 下 面 这 个 查询 显示 了 如 
何 高 效 地 使 用 〈sex，rating) 索引 进行 排序 和 分 页 : 











mysql> SELECT <cols> FROM profiles INNER JOIN ( 
-> SELECT <primary key cols> FROM profiles 
-> WHERE x.sex='M' ORDER BY rating LIMIT 100000, 10 


-> ) AS x USING(<primary key cols>); 


5.5 ”维护 索引 和 表 


即使 用 正确 的 类 型 创建 了 表 并 加 上 了 合适 的 索引 ， 工 作 也 没有 结 
BR: 还 需要 维护 表 和 索引 来 确保 它们 都 正常 工作 。 维 护 表 有 三 个 主要 的 
目的 : 找到 并 修复 损坏 的 表 ， 维 护 准 确 的 索引 统计 信息 ， 减 少 雄 片 。 


5.5.1 找到 并 修复 损坏 的 表 


表 损 坏 (corruption〉 是 很 糟 料 的 事情 。 对 于 MyISAM 存 储 引 擎 ， 表 
损坏 通常 是 系统 朋 溃 导致 的 。 其 他 的 引擎 也 会 由 于 硬件 问题 、MySQL 
本 身 的 缺陷 或 者 操作 系统 的 问题 导致 索引 损坏 。 


损坏 的 索引 会 导致 查询 返回 错误 的 结果 或 者 更 须 有 的 主键 冲突 等 问 
题 ， 严 重 时 甚至 还 会 导致 数据 库 的 朋 肖 。 如 果 你 遇 到 了 古怪 的 问题 一 一 
例如 一 些 不 应 该 发 生 的 错误 一 一 可 以 尝试 运行 CHECK TABLE 来 检查 是 否 
发 生 了 表 损 坏 〈( 注 意 有 些 存储 引擎 不 文 持 该 命令 ;而 有 些 引 擎 则 文 持 以 
不 同 的 选项 来 控制 完全 检查 表 的 方式 ) 。CHECK ”TABLE 通常 能 够 找 出 大 
多 数 的 表 和 索引 的 错误 。 























可 以 使 用 REPAIR TABLE 命令 来 修复 损坏 的 表 ， 但 同样 不 是 所 有 的 存 
储 引 擎 都 文 持 该 命令 。 如 有 果 存 储 引 擎 不 文 持 ， 也 可 通过 一 个 不 做 任何 操 
YE (no-op) 的 ALTER 操 作 来 重建 表 ， 例 如 修改 表 的 存储 引擎 为 当前 的 
引擎 。 下 面 是 一 个 针对 InnoDB 表 的 例子 : 





mysql> ALTER TABLE innodb_tbl ENGINE=INNODB; 


此 外 ， 也 可 以 使 用 一 些 存 储 引 擎 相关 的 离线 工具 ， 例 如 
myisamchk; 或 者 将 数据 导出 一 份 ， 然 后 再 重新 村 入。 不 过 ， 如 果 损 坏 
的 是 系统 区 域 ， 或 者 是 表 的 “ 行 数据 ”区 域 ， 而 不 是 索引 ， 那 么 上 面 的 办 
法 就 没有 用 了 。 在 这 种 情况 下 ， 可 以 从 备份 中 恢复 表 ， 或 者 尝试 从 损坏 
的 数据 文件 中 尽 可 能 地 恢复 数据 。 














如 末 InnoDB 引 擎 的 表 出 现 了 损坏 ， 那 么 一 定 是 发 生 了 严重 的 错 
误 ， 需 要 立刻 调查 一 下 原因 。InnoDB 一 般 不 会 出 现 损坏 。InnoDB 的 设 
计 保 证 了 它 并 不 容易 被 损坏 。 如 采 发 生 损坏 ， 一 般 要 么 是 数据 库 的 人 硬件 
问题 例如 内 存 或 者 磁盘 问题 (有 可 能 ) ， 要 么 是 由 于 数据 库 管理 员 的 错 
误 例如 在 MySQL 外 部 操作 了 数据 文件 (有 可 能 ) ， 抑 或 是 mnoDB 本 喘 
的 缺陷 (不 太 可 能 ) 。 常 见 的 类 似 错误 通 常 是 由 于 尝试 使 用 rsync 备 份 
InnoDB 导 致 的 。 不 存在 什么 查询 能 够 让 InnoDB 表 损坏 ， 也 不 用 担心 暗 
处 有 “陷阱 >。 如 果 某 条 查询 导致 ImnoDB 数 据 的 损坏 ， 那 一 定 是 遇 到 了 
bug， 而 不 是 查询 的 问题 。 














如 有 果 遇 到 数据 损坏 ， 最 重要 的 是 找 出 是 什么 导致 了 损坏 ， 而 不 只 是 
简单 地 修复 ， 人 否则 很 有 可 能 还 会 不 断 地 损坏 。 可 以 通过 设 
置 innodb_ force_recovery 参 数 进 入 InnoDB 的 强制 恢复 模式 来 修复 数 
据 ， 更 多 细节 可 以 参考 MySQL 手 册 。 另 外 ， 还 可 以 使 用 开源 的 InnoDB 
数据 恢复 工具 箱 (InnoDB Data Recovery Toolkit) 直接 从 InnoDB 数 据 文 
件 恢复 出 数据 (下 载 地 址 :http://www.percona.com/software/mysql- 


innodb-data-recovery-tools/) 。 


5.5.2 ”更 新 索引 统计 信息 


MySQL 的 碍 询 优化 器 会 通过 两 个 API 来 了 解 存 储 引擎 的 索引 值 的 分 











布 信息 ， 以 决定 如 何 使 用 索引 。 第 一 个 API 是 records_in_range() if 
过 向 存储 引擎 传 入 两 个 边界 值 获 取 在 这 个 范围 大 概 有 多 少 条 记录 。 对 于 
某 些 存储 引擎 ， 该 接口 返回 精确 值 ， 例 如 MyISAM; 但 对 于 男 一 些 存储 
引擎 则 是 一 个 估算 值 ， 例 如 InnoDB。 








第 二 个 API 是 info 0 ， 该 接口 返回 各 种 类 型 的 数据 ， 包 括 索 引 的 基 
数 〈 每 个 键 值 有 多 少 条 记录 ) 。 





如 果 存 储 引 擎 同 优 化 器 提供 的 扫描 行 数 信息 是 不 准确 的 数据 ， 或 者 
执行 计划 本 身 太 复杂 以 致 无 法 准确 地 获取 各 个 阶段 匹配 的 行 数 ， 那 么 优 
化 器 会 使 用 索引 统计 信息 来 估算 扫描 行 数 。MySQL 优 化 器 使 用 的 是 基 
于 成 本 的 模型 ， 而 衡量 成 本 的 主要 指标 就 是 一 个 查询 需要 扫描 多 少 行 。 
如 果 表 没有 统计 信息 ， 或 者 统计 信息 不 准确 ， 优 化 器 就 很 有 可 能 做 出 错 
误 的 决定 。 可 以 通过 运行 ANALYZE ”TABLE 来 重新 生成 统计 信息 解决 这 个 


问题 。 

















每 种 存储 引擎 实现 索引 统计 信息 的 方式 不 同 ， 所 以 需要 进行 
ANALYZE TABLE 的 频率 也 因 不 同 的 引擎 而 不 同 ， 每 次 运行 的 成 本 也 不 
[E]: 








。 Memory 5l ERRA AER I ita A 

e MyISAM 将 索引 统计 信息 存储 在 磁盘 中 ，ANALYZE ”TABLE 需要 进行 
一 次 全 索引 扫描 来 计算 索引 基数 。 在 整个 过 程 中 需要 锁 表 。 

。 直到 MySQL 5.5 版 本 ，InnoDB 也 不 在 磁盘 存储 索引 统计 信息 ， 而 是 
通过 随机 的 索 y 引 访问 进行 评估 并 将 其 存储 在 内 存 中 。 














可 以 使 用 SHOW INDEX FROM 命令 来 得 看 索引 的 基数 〈Cardinality) 。 
例如 : 


mysql> SHOW INDEX FROM sakila.actor\G 
FORO ICICI IO ICICI IO ICI ICI J, pow FIO IOI II IOI A I ak 
Table: actor 
Non_unique: 0 
Key_name: PRIMARY 
Seq_in_index: 1 
Column_name: actor_id 
Collation: A 
Cardinality: 200 
Sub_part: NULL 
Packed: NULL 
Null: 
Index_type: BTREE 
Comment : 
FOI III IO ICI ICI IO III pow FOI IOI IO II IOI A ak 
Table: actor 
Non_unique: 1 
Key_name: idx_actor_last_name 
Seq_in_index: 1 
Column_name: last_name 
Collation: A 
Cardinality: 200 
Sub_part: NULL 
Packed: NULL 
Null: 
Index_type: BTREE 


Comment: 





这 个 命令 输出 了 很 多 关于 索引 的 信息 ， 在 MySQL 手 册 中 对 上 面 每 
个 字段 的 含义 都 有 详细 的 解释 。 这 里 需要 特别 提 及 的 是 索引 列 的 基数 
(Cardinality) ， 其 显示 了 存储 引擎 估算 索引 列 有 多 少 个 不 同 的 取 
值 。 在 MySQL 5.0 和 更 新 的 版 本 中 ， 还 可 以 通过 
INFORMAT ION_SCHEMA. STAT1STI1CS 表 很 方便 地 查询 到 这 些 信息 。 例 如 基 
于 INFORMATION_SCHEMA 的 表 ， 可 以 编写 一 个 查询 给 出 当前 选择 性 比较 低 
的 索引 。 需 要 注意 的 是 ， 如 果 服 务 器 上 的 库 表 非常 多 ， 则 从 这 里 获取 元 
数据 的 速度 可 能 会 非常 慢 ， 而 且 会 给 MySQL 带 来 额外 的 压力 。 














InnoDB 的 统计 信息 值得 深入 研究 。InnoDB 引 擎 通过 抽样 的 方式 来 
计算 统计 信息 ， 首 先 随机 地 读 取 少量 的 索引 页 面 ， 然 后 以 此 为 样本 计算 
索引 的 统计 信息 。 在 老 的 InnoDB 版 本 中 ， 样 本 页 面 数 是 8， 新 版 本 的 
InnoDB 可 以 通过 参数 innodb_stats_sample_pages 来 设置 样本 页 的 数 
量 。 设 置 更 大 的 值 ， 理 论 上 来 说 可 以 帮助 生成 更 准确 的 索引 信息 ， 特 别 
对 于 某 些 超大 的 数据 表 来 说 ， 但 有 具体 设置 多 大 合适 依赖 于 具体 的 环 





ha 


InnoDB 会 在 表 首 次 打开 ， 或 者 执行 ANALYZE TABLE， 抑 或 表 的 大 小 
发 生 非常 大 的 变化 〈 大 小 变化 超过 十 六 分 之 一 或 者 新 插入 了 20 亿 行 都 会 
AA) 的 时 候 计 算 索 引 的 统计 信息 。 





InnoDB 在 打开 某 些 INFORMAT1ON_SCHEMA 表 ， 或 者 使 用 SHOW TABLE 
STATUS 和 SHOW INDEX， 抑 或 在 MySQL 客 户 端 开启 自动 补 全 功能 的 时 
修 都 会 触发 双 引 统计 信息 的 更 新 。 如 果 服 务 器 上 有 大 量 的 数据 ， 这 可 能 
就 是 个 很 严重 的 问题 ， 尤 其 是 当 IMO 比 较 慢 的 时 候 。 客 户 端 或 者 监控 程 
序 触发 索引 信息 采样 更 新 时 可 能 会 导致 大 量 的 锁 ， 并 给 服务 器 带 来 很 多 
的 额外 压力 ， 这 会 让 用 户 因为 启动 时 间 温 长 而 诅 形 。 只 要 SHOW 1NDEX 碍 














看 索引 统计 信息 ， 束 一 定 会 触发 统计 信息 的 更 新 。 可 以 关闭 
innodb_stats_on_metadata 参 数 来 避免 上 面 提 到 的 问题 。 





如 果 使 用 Percona 版 本 ， 使 用 的 就 是 XtraDB3 引 擎 而 不 是 原生 的 
InnoDB 引 擎 ， 那 么 可 以 通过 innodb_stats_auto_update 人 参数 来 禁止 通 
过 自动 采样 的 方式 更 新 索引 统计 信息 ， 这 时 需要 手动 执行 ANALYZE 
TABLE 命 令 来 更 新 统计 信息 。 如 果 某 些 查 询 执行 计划 很 不 稳定 的 话 ， 可 
以 用 该 办 法 固化 查询 计划 。 我 们 当初 引入 这 个 参数 也 正 是 为 了 解决 一 些 
客户 的 这 种 问题 。 








如 果 想 要 更 稳定 的 执行 计划 ， 并 在 系统 重启 后 更 快 地 生成 这 些 统计 
言 息 ， 那 么 可 以 使 用 系统 表 来 持久 化 这 些 索 引 统计 信息 。 甚 至 还 可 以 在 
不 同 的 机 器 间 迁 移 索 引 统 计 信息 ， 这 样 新 环境 启动 时 就 无 须 再 收集 这 些 
数据 。 在 Percona 5.1 版 本 和 官方 的 5.6 版 本 都 已 经 加 入 这 个 特性 。 在 
Percona 版 本 中 通过 innodb use sys stats table 参 数 可 以 启用 该 特 
性 ， 官 方 5.6 版 本 则 通过 innodb analyze is_persistent 参 数控 制 。 








一 旦 关闭 索引 统计 信息 的 目 动 更 新 ， 那 么 就 需要 周期 性 地 使 
用 ANALYZE “TABLE 来 手动 更 新 。 人 否则 ， 索 引 统计 信息 就 会 永远 不 变 。 如 
果 数 据 分 布 发 生 大 的 变化 ， 可 能 会 出 现 一 些 很 糟糕 的 执行 计划 。 


5.5.3 ”减少 索引 和 数据 的 碎片 


B-Tree 索 引 可 能 会 碎片 化 ， 这 会 降低 查询 的 效率 。 和 碎片 化 的 索引 可 
能 会 以 很 兰 或 者 无 序 的 方式 存储 在 磁盘 上 。 


根据 设计 ，B-Tree 需 要 随机 磁盘 访问 才能 定位 到 叶子 页 ， 所 以 随机 
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来 说 ， 速 度 可 能 会 降低 很 多 倍 ; OR | m FI A EH E o 














表 的 数据 存储 也 可 能 雁 片 化 。 然 而 ， 数 据 存 储 的 碎片 化 比 索 引 更 加 
复 淋 。 有 三 种 类 型 的 数据 碎片 。 


行 碎片 (Row fragmentation) 





这 种 碎片 指 的 是 数据 行 被 存储 为 多 个 地 方 的 多 个 片段 中 。 即 使 
查询 只 从 索引 中 访问 一 行 记 录 ， 行 雁 片 也 会 导致 性 能 下 降 。 





行 间 碎片 CIntra-row fragmentation) 








行 间 碎 片 是 指 逻 辑 上 顺序 的 页 ， 或 者 行 在 磁盘 上 不 是 顺序 存储 
的 。 行 间 雁 片 对 诸如 全 表 扫 描 和 聚 复 索 引 扫 描 之 类 的 操作 有 很 大 的 
影响 ， 因 为 这 些 操作 原本 能 够 从 磁盘 上 顺序 存储 的 数据 中 获 苑 。 


剩余 空间 碎片 (Free space fragmentation) 








剩余 空间 雁 片 是 指数 据 页 中 有 大 量 的 空余 空间 。 这 会 导致 服务 
铝 读 取 大 量 不 需要 的 数据 ， 从 而 造成 浪费 。 


对 于 MyISAM 表 ， 这 三 类 友 厂 化 都 可 能 发 生 。 但 InnoDB 不 会 出 现 短 
小 的 行 碎片 ，InnoDB 会 移动 短小 的 行 并 重 写 到 一 个 片段 中 。 


可 以 通过 执行 OPTIMIZE TABLE 或 者 导出 再 导入 的 方式 来 重新 整理 数 
据 。 这 对 多 数 存储 引擎 都 是 有 效 的 。 对 于 一 些 存储 引擎 如 MyISAM， 可 
以 通过 排序 算法 重建 索引 的 方式 来 消除 碎片 。 老 版 本 的 InnoDB 没 有 什 











么 消除 雄 片 化 的 方法 。 不 过 最 新 版 本 InnoDB 新 增 了“ 在线” 添加 和 删除 索 
引 的 功能 ， 可 以 通过 先 删除 ， 然 后 再 重新 创建 案 引 的 方式 来 消除 索引 的 
碎片 化 。 


对 于 那些 不 支持 OPTIMIZE _ TABLE 的 存储 引擎， 可 以 通过 一 个 不 做 任 
何 操作 Cno-op) 的 ALTER _ TABLE 操作 来 重建 表 。 只 需要 将 表 的 存储 引擎 
修改 为 当前 的 引擎 即 可 : 





mysql> ALTER TABLE <table> ENGINE=<engine>; 


对 于 开局 了 expand fast_index_creation 人 参数 的 Percona Server, f% 
这 种 方式 重建 表 ， 则 会 同时 消除 表 和 索引 的 税 片 化 。 但 对 于 标准 版 本 的 
MySQL RAR Coby Le RIRA SI 的 碎 户 化 。 可 用 先 删 除 所 
有 索引 ， 然 后 重建 表 ， 最 后 重新 创建 索引 的 方式 模拟 Percona Server 的 这 
个 功能 。 














应 该 通过 一 些 实际 测量 而 不 是 随意 假设 来 确定 是 否 需 要 消除 索引 和 
表 的 碎片 化 。Percona 的 XtraBackup 有 个 --stats 参 数 以 非 备 份 的 方式 运 
行 ， 而 只 是 打印 索引 和 表 的 统计 情况 ， 包 括 页 中 的 数据 量 和 空余 空间 。 
这 可 以 用 来 确定 数据 的 碎片 化 程度 。 另 外 也 要 考虑 数据 是 否 已 经 达到 稳 
定 状 态 ， 如 果 你 进行 碎片 整理 将 数据 压缩 到 一 起 ， 可 能 反而 会 导致 后 续 
的 更 新 操作 触发 一 系列 的 页 分 裂 和 重组 ， 这 会 对 性 能 造成 不 民 的 影响 
(直到 数据 再 次 达到 新 的 稳定 状态 〉。 


5.6 han 


通过 本 章 可 以 看 到 ， 索 引 是 一 个 非常 复杂 的 话题 ! MySQL 和 存储 引 
擎 访问 数据 的 方式 ， 加 上 索引 的 特性 ， 使 得 索引 成 为 一 个 影响 数据 访问 
的 有 力 而 灵活 的 工作 无 论 数据 是 在 磁盘 中 还 是 在 内 存 中 〉。 








在 MySQL 中 ， 大 多 数 情 况 下 都 会 使 用 B-Tree 索 引 。 其 他 类 型 的 索引 
大 多 只 适用 于 特殊 的 目的 。 如 宁 在 合适 的 场景 中 使 用 索引 ， 将 大 大 提高 
碍 询 的 啊 应 时 间 。 本 章 将 不 再 介绍 更 多 这 方面 的 内 容 了 ， 最 后 值得 总 的 
回顾 一 下 这 些 特性 以 及 如 何 使 用 B-Tree 索 引 。 








在 选择 索引 和 编写 利用 这 些 索 引 的 查询 时 ， 有 如 下 三 个 原则 始终 需 
要 记 住 : 








1. 单行 访问 是 很 慢 的 。 特 别 是 在 机 械 便 盘 存储 中 《SSD 的 随机 IO 要 快 
RE, AWK RIAR) 。 如 果 服 务 器 从 存储 中 读 取 一 个 数据 
块 只 是 为 了 获取 其 中 一 行 ， 那 么 就 浪费 了 很 多 工作 。 最 好 读 取 的 块 
中 能 包含 尽 可 能 多 所 需要 的 行 。 使 用 索引 可 以 创建 位 置 引用 以 提升 
效率 。 

2. 按 顺 序 访问 范围 数据 是 很 快 的 ， 这 有 两 个 原因 。 第 一 ， 顺 序 IO 不 
需要 多 次 磁盘 寻 道 ， 所 以 比 随 机 IO 要 快 很 多 《特别 是 对 机 械 硬 
盘 ) 。 第 二 ， 如 果 服 务 器 能 够 授 需 要 顺序 读 取 数据 ， 那 么 束 不 再 需 
要 额外 的 排序 操作 ， 并 且 GROUP BY 查询 也 无 须 再 做 排序 和 将 行 按 组 
进行 聚合 计算 了 。 

3. 索引 禾 兹 售 询 是 很 快 的。 如 果 一 个 索引 包含 了 但 询 需 要 的 所 有 列 ， 
那么 存储 引擎 束 不 需要 再 回 表 查 找 行 。 这 避免 了 大 量 的 单行 访问 ， 




















而 上 面 的 第 1 点 已 经 写 明 单行 访问 是 很 慢 的 。 





总 的 来 说 ， 编 写 查 询 语句 时 应 该 尽 可 能 选择 合适 的 索引 以 避免 单行 
查找 、 尽 可 能 地 使 用 数据 原生 顺序 从 而 避免 额外 的 排序 操作 ， 并 尺 可 能 
使 用 索引 窗 盖 人 查询。 这 与 本 章 开 头 提 到 的 Lahdenmaki 和 Leach 的 书 中 
的 “三 星 ? 评 价 系统 是 一 致 的 。 





如 末 表 上 的 每 一 个 查询 都 能 有 一 个 完美 的 索引 来 满足 当然 是 最 好 
的 。 但 不 笠 的 是 ， 要 这 么 做 有 时 可 能 需要 创建 大 量 的 索引 。 还 有 一 些 时 
候 对 茶 些 查询 是 不 可 能 创建 一 个 达到 “三 星 ” 的 索引 的 《例如 查询 要 按照 
两 个 列 排序 ， 其 中 一 个 列 正 序 ， 另 一 个 列 倒序 ) 。 这 时 必须 有 所 取舍 以 
创建 最 合适 的 索引 ， 或 者 寻求 丛 代 策略 〈 例 如 反 范 式 化 ， 或 者 提前 计算 
汇总 表 等 ) 。 











理解 索引 是 如 何 工 作 的 非常 重要 ， 应 该 根据 这 些 理解 来 创建 最 合适 
的 索引 ， 而 不 是 根据 一 些 诸如 “在 多 列 索 引 中 将 选择 性 最 高 的 列 放 在 第 
一 列 ?或 "应 该 为 WHERE 子 句 中 出 现 的 所 有 列 创建 索引 ?之 类 的 经 验 法 则 
及 其 推论 。 





那 如 何 判断 一 个 系统 创建 的 索引 是 合理 的 呢 ? 一 般 来 说 ， 我 们 建议 
按 啊 应 时 间 来 对 查询 进行 分 析 。 找 出 那些 消耗 最 长 时 间 的 查询 或 者 那些 
给 服务 器 带 来 最 大 压力 的 查询 (第 3 章 中 介绍 了 如 何 测量 ) ， 然 后 检查 
这 些 查 询 的 schema、SQL 和 索引 结构 ， 判 断 是 否 有 查询 扫描 了 太 多 的 
行 ， 是 否 做 了 很 多 额外 的 排序 或 者 使 用 了 临时 表 ， 是 人 否 使 用 随机 IO 访 
问 数 据 ， 或 者 是 有 太 多 回 表 查 询 那 些 不 在 索引 中 的 列 的 操作 。 














如 果 一 个 查询 无 法 从 所 有 可 能 的 索引 中 获 益 ， 则 应 该 看 看 是 舍 可 以 
创建 一 个 更 合适 的 索引 来 提升 性 能 。 如 果 不 行 ， 也 可 以 看 看 是 否 可 以 重 
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询 。 这 也 是 下 一 章 要 介绍 的 内 容 。 





如 果 根 据 第 3 章 介 绍 的 基于 啊 应 时 间 的 分 析 不 能 找 出 有 问题 的 查询 
We? 是 否 可 能 有 我 们 没有 注意 到 的 “很 糟糕 ?的 查询 ， 需 要 一 个 更 好 的 索 
引 来 获取 更 高 的 性 能 ?一 般 来 襄 ， 不 可 能 。 对 于 诊断 时 抓 不 到 的 查询 ， 
那 就 不 是 问题 。 但 是 ， 这 个 查询 未 来 有 可 能 会 成 为 问题 ， 因 为 应 用 程 
序 、 数 据 和 人鱼 载 都 在 变化 。 如 果 仍 然 想 找到 那些 过 引 不 是 很 合适 的 查 
询 ， 并 在 它们 成 为 问题 前 进行 优化 ， 则 可 以 使 用 pt-query-digest 的 查询 审 
查 “review” 功 能 ， 分 析 其 EXPLAIN 出 来 的 执行 计划 。 

















(1) 除非 特别 说 明 ， 本 章 假设 使 用 的 都 是 传统 的 硬盘 驱动 器 。 固 态 硬盘 驱动 器 有 着 完全 不 同 
的 性 能 特性 ， 本 书 将 对 此 进行 详细 的 描述 。 然 而 即使 是 固态 硬盘 ， 索 引 的 原则 依然 成 立 ， 只 是 
那些 需要 尽量 避免 的 糟糕 索引 对 于 固态 硬盘 的 影响 没有 传统 硬盘 那么 糟 糙 。 

(2) 实际 上 很 多 存储 引擎 使 用 的 是 B+Tree， 即 每 一 个 叶子 节点 都 包含 指向 下 一 个 叶子 节点 的 
指针 ， 从 而 方便 叶子 节点 的 范围 遍历 。 对 于 B-Tree 更 详细 的 细节 可 以 参考 相关 计算 机 科学 方面 
的 书籍 。 


(3) 这 是 MySQL 相 关 的 特性 ， 其 至 和 具体 的 版 本 也 相关 。 其 他 有 些 数据 库 也 可 以 使 用 索引 
的 非 前 级 部 分 ， 虽 然 使 用 完全 的 前 级 的 效率 会 更 好 。MySQL 未 来 也 可 能 会 提供 这 个 特性 ， 本 章 
后 面 也 会 介绍 一 些 绕 过 限制 的 方法 。 

(4) 关于 哈 希 表 请 参考 相关 计算 机 科学 方面 的 书籍 。 

(5) 参考 http://en.wikipedia.org/wiki/Birthday_problem。 一 一 译 者 注 

(6) 某 些 优 化 极 客 (geek) 将 这 称 之 为 “sarg”， 这 是 “可 搜索 的 参数 (searchable 
argument) ”的 缩写 。 好 吧 ， 学 会 了 这 个 词 你 也 是 一 个 极 客 了 。 


(7) Oracle 用 户 可 能 更 熟悉 索引 组 织 表 (index-organized table) 的 说 法 ， 实 际 上 是 一 样 的 意 
E o 










































































































































































(8) 这 并 非 总 成 立 ， 很 快 就 可 以 看 到 。 
(9) 顺便 提 一 下 ， 并 不 是 所 有 的 非 从 簇 索引 都 能 做 到 一 次 索引 查询 就 找到 行 。 当 行 更 新 的 时 
候 可 能 无 法 存储 在 原来 的 位 置 ， 这 会 导致 表 中 出 现行 的 碎片 化 或 者 移动 行 并 在 原 位 置 保存 “向 前 
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指针 ”， 这 两 种 情况 都 会 导致 在 查找 行 时 需要 更 多 的 工作 。 

(10) 多 版 本 控制 。 一 一 译 者 注 

(11) 值得 指出 的 是 ， 这 是 一 个 真实 案例 中 的 表 ， 有 很 多 三 级 索引 和 列 。 如 果 删 除 这 些 二 级 
索引 只 测试 主键 ， 那 么 性 能 差异 将 会 更 明显 。 

(12) 很 容易 把 Extra 列 的 “Using index” 和 type 列 的 “index” 搞 混淆 。 其 实 这 两 者 完全 不 同 ，type 
列 和 履 盖 索引 毫 无 关系 ; 它 只 是 表示 这 个 查询 访问 数据 的 方式 ， 或 者 说 是 MySQL 查 找 行 的 方 
式 。MySQL 手 册 中 称 之 为 连接 方式 (join type) 。 

(13) MySQL 有 两 种 排序 算法 ， 更 多 细节 可 以 阅读 第 7 章 。 

(14) 如 果 需 要 按 不 同方 向 做 排序 ， 一 个 技巧 是 存储 该 列 值 的 反 转 串 或 者 相反 数 。 

(15) MySQL 这 里 称 其 为 文件 排序 (filesort) ， 其 实 并 不 一 定 使 用 磁盘 文件 。 

(16) ”如 果 索 引 类 型 不 同 ， 并 不 算是 重复 索引 。 例 如 经 常 有 很 好 的 理由 人 凶 
FULLTEXT KEY (col) 两 种 索引 。 

07) 这 里 使 用 了 全 内 存 的 案例 ， 如 果 表 逐渐 变 大 ， 导 致 工作 负载 变 成 JO 密 集 型 时 ， 性 能 测 
试 结果 差距 会 更 大 。 对 于 COUNT () 查询 ， 履 盖 索 引 性 能 提升 100 倍 也 是 很 有 可 能 的 。 

(18) 有 些 索引 的 功能 相当 于 唯一 约束 ， 虽 然 该 索引 一 直 没 有 被 查询 使 用 ， 却 可 能 是 用 于 避 
免 产 生 重 复数 据 的 。 

(19) 再 说 一 下 ，MySQL 5.6 对 于 这 里 的 问题 可 能 会 有 很 大 的 帮助 。 

(20) 尽管 理论 上 使 用 基于 行 的 日 志 模 式 时 ， 在 某 些 事务 隔离 级 别 下 ， 服 务 器 不 再 需要 锁定 
行 ， 但 实践 中 经 常 发 现 无 法 实现 这 种 预期 的 行为 。 直 到 MySQL ”5.6.3 版 本 ， 在 read-commit 隔 离 
级 别 和 基于 行 的 日 志 模式 下 ， 这 个 例子 还 是 会 导致 锁 。 
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建 KEY (col) 和 
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第 6 晶 ”查询 性 能 优化 
前 面 的 章节 我 们 介绍 了 如 何 设 计 最 优 的 库 表 结 构 、 如 何 建立 最 好 的 
索引 ， 这 些 对 于 高 性 能 来 说 是 必 不 可 少 的 。 但 这 些 还 不 够 还 需要 合 
理 的 设计 查询 。 如 果 和 查询 写 得 很 糟糕 ， 即 使 库 表 结构 再 合理 、 索 引 再 合 
适 ， 也 无 法 实现 高 性 能 。 





查询 优化 、 索 引 优化 、 库 表 结 构 优 化 需要 齐头并进 ， 一 个 不 落 。 在 
获得 编写 MySQL 碍 询 的 经 验 的 同时 ， 也 将 学 习 到 如 何 为 高 效 的 查询 设 
计 表 和 索引 。 同 样 的， 也 可 以 学 习 到 在 优化 库 表 结构 时 会 影响 到 哪些 类 
型 的 查询 。 这 个 过 程 需 要 时 间 ， 上 所 以 建议 大 家 在 学 习 后 面 章节 的 时 候 多 
回头 看 看 这 三 章 的 内 容 。 

















本 章 将 从 查询 设计 的 一 些 基 本 原则 开始 一 一 这 也 是 在 发 现 查 询 效 率 
不 高 的 时 候 首 先 需 要 考虑 的 因素 。 然 后 会 介绍 一 些 更 深 的 查询 优化 的 技 
巧 ， 并 会 介绍 一 些 MySQL 优 化 器 内 部 的 机 制 。 我 们 将 展示 MySQL 是 如 
何 执行 查询 的 ， 你 也 将 学 会 如 何 去 改 变 一 个 查询 的 执行 计划 。 最 后 ， 我 
们 要 看 一 下 MySQL 优 化 器 在 哪些 方面 做 得 还 不 够 ， 并 探索 查询 优化 的 
模式 ， 以 帮助 MySQL 更 有 效 地 执行 查询 。 











本 章 的 目标 是 帮助 大 家 更 深刻 地 理解 MySQL 如 何 真正 地 执行 查 
询 ， 并 明日 高 效 和 低 效 的 原因 何在 ， 这 样 才能 充分 发 挥 MySQL 的 优 
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6.1 为 什么 查询 速度 会 慢 


在 尝试 编写 快速 的 查询 之 前 ， 需 要 清楚 一 点 ， 真 正 重 要 是 啊 应 时 
间 。 如 果 把 查询 看 作 是 一 个 任务 ， 那 么 它 由 一 系列 子 任务 组 成 ， 每 个 子 
任务 都 会 消耗 一 定 的 时 间 。 如 果 要 优化 查询 ， 实 际 上 要 优化 其 子 任务 ， 
要 么 消除 其 中 一 些 子 任务 ， 要 么 减少 子 任务 的 执行 次 数 ， 要 么 让 子 任 务 
运行 得 更 快 巾 。 











MySQL 在 执行 查询 的 时 候 有 哪些 子 任务 ， 哪 些 子 任务 运行 的 速度 
很 慢 ? 这 里 很 难 给 出 完整 的 列表 ， 但 如 果 按 照 第 3 章 介 绍 的 方法 对 查询 
进行 剖析 ， 就 能 看 到 碍 询 所 执行 的 子 任务 。 通 党 来 将 ， 碍 询 的 生命 周期 
大 致 可 以 按照 顺序 来 看 : 从 客户 端 ， 到 服务 器 ， 然 后 在 服务 器 上 进行 解 
析 ， 生 成 执行 计划 ， 执 行 ， 并 返回 结果 给 客户 端 。 其 中 “执行 ”可 以 认为 
古 整 个 生命 周期 中 最 重要 的 阶段 ， 这 其 中 包括 了 大 量 为 了 检索 数据 到 存 
储 引 擎 的 调用 以 及 调用 后 的 数据 处 理 ， 包 括 排序 、 分 组 等 。 





在 完成 这 些 任务 的 时 候 ， 但 询 裔 要 在 不 同 的 地 方 花 旨 时间， 包括 网 
络 ，CPU 计 算 ， 生 成 统计 信息 和 执行 计划 、 锁 等 待 〈 互 斥 等 待 ) 等 操 
作 ， 尤 其 是 向 底层 存储 引擎 检索 数据 的 调用 操作 ， 这 些 调用 需要 在 内 存 
操作 、CPU 操 作 和 内 存 不 足 时 导致 的 /O 操 作 上 消耗 时 间 。 根 据 存储 引 
擎 不 同 ， 可 能 还 会 产生 大 量 的 上 下 文 切 换 以 及 系统 调用 。 











在 每 一 个 消耗 大 量 时 间 的 查询 案例 中 ， 我 们 都 能 看 到 一 些 不 必要 的 
额外 操作 、 茶 些 操 作 被 额外 地 重复 了 很 多 次 、 东 些 操作 执行 得 太 慢 等 。 
优化 查询 的 目的 就 是 减少 和 消除 这 些 操作 所 花费 的 时 间 。 





再 次 申明 一 点 ， 对 于 一 个 查询 的 全 部 生命 周期 ， 上 面 列 的 并 不 完 
整 。 这 里 我 们 只 是 想 说 明 : 了 解 查 询 的 生命 周期 、 清 楚 查 询 的 时 间 消 耗 
情况 对 于 优化 得 询 有 很 大 的 意义 。 有 了 这 些 概念 ， 我 们 再 一 起 来 看 看 如 
何 优化 查询 。 


6.2 AWAM: 优化 数据 访问 


查询 性 能 低下 最 基本 的 原因 是 访问 的 数据 太 多 。 茶 些 碍 询 可 能 不 可 
避免 地 需要 筛选 大 量 数据 ， 但 这 并 不 常见 。 大 部 分 性 能 低下 的 碍 询 都 可 
以 通过 减少 访问 的 数据 量 的 方式 进行 优化 。 对 于 低 效 的 查询 ， 我 们 发 现 
通过 下 面 两 个 步骤 来 分 析 总 是 很 有 效 : 




















1. 确认 应 用 程序 是 否 在 检索 大 量 超过 需要 的 数据 。 这 通常 意味 着 访问 
了 太 多 的 行 ， 但 有 时 候 也 可 能 是 访问 了 太 多 的 列 。 
2. 确认 MySQL 服 务 需 层 是 否 在 分 析 大 量 超过 需要 的 数据 行 。 


6.2.1 是否 回 数 据 库 请 求 了 不 需要 的 
数据 


有 些 碍 询 会 请 求 超过 实际 需要 的 数据 ， 然 后 这 些 多 余 的 数据 会 家 应 
用 程序 丢弃 。 这 会 给 MySQL 服 务 咒 带 来 额外 的 负担 ， 并 增加 网 络 开 
销 包 ， 另 外 也 会 消耗 应 用 服务 器 的 CPU 和 内 存 资 源 。 














这 里 有 一 些 典型 案例 : 


查询 不 需要 的 记录 








一 个 着 见 的 错误 是 冲冲 会 误 以 为 MySQL 会 只 返回 需要 的 数 
据 ， 实 际 上 MySQL 却 是 先 返 回 全 部 结果 集 再 进行 计算 。 我 们 经 常 
会 看 到 一 些 了 解 其 他 数据 库 系 统 的 人 会 设计 出 这 类 应 用 程序 。 这 些 


开发 者 习惯 使 用 这 样 的 技术 ， 先 使 用 SELECT 语 句 人 查询 大 量 的 结 
果 ， 然 后 获取 前 面 的 N 行 后 关闭 结果 集 〈 例 如 在 新 闻 网 站 中 取出 
100 条 记录 ， 但 是 只 是 在 页 面 上 显示 前 面 10 条 ) 。 他 们 认为 MySQL 
会 执行 查询 ， 并 只 返回 他 们 需要 的 10 条 数据 ， 然 后 停止 查询 。 实 际 
情况 是 MySQL 会 查询 出 全 部 的 结果 集 ， 客 户 并 的 应 用 程序 会 接收 
全 部 的 结果 集 数 据 ， 然 后 抛弃 其 中 大 部 分 数据 。 最 简单 有 效 的 解决 
方法 就 是 在 这 样 的 查询 后 面 加 上 LIMIT。 

















多 表 关 联 时 返回 全 部 列 





如 果 你 想 查 询 所 有 在 电影 Academy Dinosaur? EMANA R, F 
万 不 要 按 下 面 的 写法 编写 查询 : 





mysql> SELECT * FROM sakila.actor 
-> INNER JOIN sakila.film_actor USING(actor_id) 
-> INNER JOIN sakila.film USING(film_id) 


-> WHERE sakila.film.title = 'Academy Dinosaur'; 


这 将 返回 这 三 个 表 的 全 部 数据 列 。 正 确 的 方式 应 该 是 像 下 面 这 样 只 
取 需 要 的 列 : 


mysql> SELECT sakila.actor.* FROM sakila.actor...; 


总 是 取出 全 部 列 











每 次 看 到 SELECT * 的 时 候 都 需要 用 怀疑 的 眼光 审视 ， 是 不 是 真 
的 需要 返回 全 部 的 列 ? 很 可 能 不 是 必需 的 。 取 出 全 部 列 ， 会 让 优化 
器 无 法 完成 索引 罗 善 扫描 这 类 优化 ， 还 会 为 服务 器 带 来 额外 的 
IO、 内 存 和 CPU 的 消耗 。 因 此 ， 一 些 DBA 是 严格 禁止 SELECT * 的 
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当然 ， 碍 询 返 回 超过 需要 的 数据 也 不 总 是 坏事 。 在 我 们 研究 过 
的 许多 采 例 中 ， 人 们 会 告诉 我 们 说 这 种 有 点 浪费 数据 库 资源 的 方式 
可 以 简化 开 太 ， 因 为 能 提高 相同 代码 片段 的 复 用 性 ， 如 果 清 楚 这 样 
做 的 性 能 影响 ， 那 么 这 种 做 法 也 是 值得 考虑 的 。 如 果 应 用 程序 使 用 
了 茶 种 缓存 机 制 ， 或 者 有 其 他 考虑 ， 获 取 超过 需要 的 数据 也 可 能 
其 好 处 ， 但 不 要 起 记 这 样 做 的 代价 是 什么 。 获 取 并 缓存 所 有 的 列 的 
查询 ， 相 比 多 个 独立 的 只 获取 部 分 列 的 查询 可 能 就 更 有 好 处 。 





重复 查询 相同 的 数据 


如 果 你 不 太 小 心 ， 很 容易 出 现 这 样 的 错误 一 一 不 断 地 重复 执行 
相同 的 查询， 然后 每 次 都 返回 完全 相同 的 数据 。 例 如 ， 在 用 户 评论 
的 地 方 需要 查询 用 户头 像 的 URL， 那 么 用 户 多 次 评论 的 时 候 ， 可 能 
就 会 反复 碍 询 这 个 数据 。 比 较 好 的 方案 是 ， 当 初次 碍 询 的 时 候 将 这 
个 数据 缓存 起 来 ， 需 要 的 时 候 从 缓存 中 取出 ， 这 样 性 能 显然 会 更 
好 。 














6.2.2 MySQL 是 否 在 扫 摘 额外 的 记录 





在 确定 查询 只 返回 需要 的 数据 以 后 ， 接 下 来 应 该 看 看 查询 为 了 返回 


结果 是 否 扫描 了 过 多 的 数据 。 对 于 MySQL， 最 简单 的 衡量 查询 开销 的 
三 个 指标 如 下 : 


e 啊 应 时 间 
o 扫描 的 行 数 


。 返回 的 行 数 


没有 哪个 指标 能 够 完美 地 衡量 查询 的 开销 ， 但 它们 大 致 反映 了 
MySQL 在 内 部 执行 查询 时 需要 访问 多 少数 据 ， 并 可 以 大 概 推算 出 查询 
运行 的 时 间 。 这 三 个 指标 都 会 记录 到 MySQL 的 慢 日 志 中 ， 所 以 检查 慢 

志 记 录 是 找 出 扫描 行 数 过 多 的 查询 的 好 办 法 。 








啊 应 时 间 





要 记 住 ， 啊 应 时 间 只 是 一 个 表面 上 的 值 。 这 样 说 可 能 看 起 来 和 前 面 
天 于 啊 应 时 间 的 说 法 有 矛盾 ? 其 实 并 不 矛盾 ， 啊 应 时 间 仍 然 是 最 重要 的 
指标 ， 这 有 一 点 复杂 ， 后 面 细 细 道 来 。 

















啊 应 时 间 是 两 个 部 分 之 和 : 服务 时 间 和 排队 时 间 。 服 务 时 间 是 指数 
据 库 处 理 这 个 碍 询 真 正 伦 了 多 长 时 间 。 排 队 时 间 是 指 服务 器 因为 等 竺 某 
些 资源 而 没有 真正 执行 查询 的 时 间 一 一 可 能 是 等 1O 操 作 完 成 ， 也 可 能 
古 等 竺 行 锁 ， 等 等 。 遗 憾 的 是 ， 我 们 无 法 把 啊 应 时 间 细 分 到 上 面 这 些 部 
分 ， 除 非 有 什么 办 法 能 够 逐个 测量 上 面 这 些 消耗 ， 不 过 很 难 做 到 。 一 般 
最 常见 和 重要 的 等 待 是 VO 和 锁 等 待 ， 但 是 实际 情况 更 加 复杂 。 

















所 以 在 不 同类 型 的 应 用 压力 下 ， 啊 应 时 间 并 没有 什么 一 致 的 规律 或 
者 公式 。 诸 如 存储 引擎 的 锁 《〈 表 锁 、 行 锁 ) 、 高 并 发 资源 竞争 、 人 硬件 啊 
应 等 诸多 因素 都 会 影响 啊 应 时 间 。 所 以 ， 啊 应 时 间 既 可 能 是 一 个 问题 的 
结果 也 可 能 是 一 个 问题 的 原因 ， 不 同 案 例 情况 不 同 ， 除 非 能 够 使 用 第 3 
半 的 “单个 但 询问 题 还 是 服务 器 问题 "一 节 介绍 的 技术 来 确定 到 底 是 因 还 
是 果 。 





























当 你 看 到 一 个 查询 的 啊 应 时 间 的 时 候 ， 首 先 需 要 问 问 自己 ， 这 个 啊 





应 时 间 是 否 是 一 个 合理 的 值 。 实 际 上 可 以 使 用 “快速 上 限 估 计 ” 法 来 估算 
查询 的 啊 应 时 间 ， 这 是 由 TapioLahdenmaki 和 Mike Leach 编 写 的 
Relational Database Index Design and the Optimizers (Wiley 出 版 社 ) 一 书 
提 到 的 技术 ， 限 于 篇 幅 ， 在 这 里 不 会 详细 展开 。 概 括 地 说 ， 了 解 这 个 得 
询 需 要 哪些 索引 以 及 它 的 执行 计划 是 什么 ， 然 后 计算 大 概 需要 多 少 个 顺 
序 和 随机 WO， 再 用 其 乘 以 在 具体 人 硬件 条 件 下 一 次 W/O 的 消耗 时 间 。 最 后 
把 这 些 消耗 都 加 起 来 ， 就 可 以 获得 一 个 大 概 参 考 值 来 判断 当前 啊 应 时 间 
古 不 是 一 个 合理 的 值 。 











扫描 的 行 数 和 返回 的 行 数 





分 析 碍 询 时 ， 碍 看 该 得 询 扫描 的 行 数 是 非常 有 帮助 的 。 这 在 一 定 程 
度 上 能 够 说 明 该 租 询 找到 需要 的 数据 的 效率 高 不 高 。 








对 于 找 出 那些 “糟糕 ”的 查询 ， 这 个 指标 可 能 还 不 够 完美 ， 因 为 并 不 
是 所 有 的 行 的 访问 代价 都 是 相同 的 。 较 短 的 行 的 访问 速度 更 快 ， 内 存 中 
的 行 也 比 磁 盘 中 的 行 的 访问 速度 要 快 得 多 。 





理想 情况 下 扫描 的 行 数 和 返回 的 行 数 应 该 是 相同 的 。 但 实际 情况 中 
这 种 “ 美 事 ? 并 不 多 。 例 如 在 做 一 个 关联 得 询 时 ， 服 务 器 必须 要 扫描 多 行 
才能 生成 结果 集中 的 一 行 。 扫 描 的 行 数 对 返回 的 行 数 的 比率 通常 很 小 ， 
一 般 在 1:1 和 10:1 之 间 ， 不 过 有 时 候 这 个 值 也 可 能 非常 非常 大 。 





扫 摘 的 行 数 和 访问 类 型 


在 评估 查询 开销 的 时 候 ， 需 要 考虑 一 下 从 表 中 找到 茶 一 行 数据 的 成 


本 。MVySQL 有 好 几 种 访问 方式 可 以 查找 并 返回 一 行 结果 。 有 些 访问 方 
式 可 能 需要 扫描 很 多 行 才能 返回 一 行 结果 ， 也 有 些 访 问 方式 可 能 无 须 扫 
描 就 能 返回 结果 。 





在 EXPLAIN 语 句 中 的 type 列 反应 了 访问 类 型 。 访 问 类 型 有 很 多 种 ， 
从 全 表 扫 描 到 索引 扫描 、 范 围 扫描 、 唯 一 索引 查询 、 和 常数 引用 等 。 这 里 
列 的 这 些 ， 速 度 是 从 慢 到 快 ， 扫 描 的 行 数 也 是 从 小 到 大 。 你 不 需要 记 住 
这 些 访问 类 型 ， 但 需要 明白 扫描 表 、 扫 描 索 引 、 范 围 访问 和 单 值 访 问 的 











如 果 碍 询 没 有 办 法 找到 合适 的 访问 类 型 ， 那 么 解决 的 最 好 办 法 通常 
就 是 增加 一 个 合适 的 索引 ， 这 也 正 是 我 们 前 一 章 讨 论 过 的 问题 。 现 在 应 
该 明白 为 什么 索引 对 于 查询 优化 如 此 重要 了 。 索 引 让 MySQL 以 最 高 
效 、 扫 描 行 数 最 少 的 方式 找到 需要 的 记录 。 








例如 ， 我 们 看 看 示例 数据 库 Sakila 中 的 一 个 查询 案例 ; 


mysql> SELECT *FROM sakila.film_actor WHERE film id = 1; 


这 个 查询 将 返回 10 行 数据 ， 从 EXPLAIN 的 结果 可 以 看 到 ，MySQL 
在 索引 idx_fk_film_id 上 使 用 了 ref 访 问 类 型 来 执行 查询 : 


mysql> EXPLAIN SELECT * FROM sakila.film actor WHERE film_id 
FO IO ICICI ICICI IO ICI II II yy RII IR II IR A A A IR Ik 
id: 1 
select_type: SIMPLE 
table: film_actor 
type: ref 
possible_keys: idx_fk_film_id 


key: 
key_len: 
ref: 
rows: 


Extra: 


idx_fk_film_id 
2 
const 


10 





EXPLAIN 的 结果 也 显示 MySQL 预 估 需 要 访问 10 行 数据 。 换 句 话说 ， 
查询 优化 器 认为 这 种 访问 类 型 可 以 高 效 地 完成 查询 。 如 果 没 有 合适 的 索 
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mysql> ALTER TABLE sakila.film_actor DROP FOREIGN KEY fk_film 


mysql> ALTER TABLE sakila.film_actor DROP KEY idx_fk_film_id; 


mysql> EXPLAIN SELECT * FROM sakila.film_actor WHERE film_id 


炎炎 类 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 1 row 大 炎炎 炎炎 火炎 火炎 火炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


1 

SIMPLE 
film_actor 
ALL 

NULL 

NULL 

NULL 

NULL 

5073 


Using where 


正如 我 们 预测 的 ， 访 问 类 型 变 成 了 一 个 全 表 扫 描 CALL) ， 现 在 
MySQL 预 估 需 要 扫描 5073 条 记录 来 完成 这 个 查询 。 这 里 的 “Using 


Where” #¢ 78 MySQL K M WHERE 9% RIMAE fig | IK |] YE 





一 般 MySQL 能 够 使 用 如 下 三 种 方式 应 用 WHERE 条 件 ， 从 好 到 坏 依 次 








在 色 引 中 使 用 WHERE 条 件 来 过 波 不 匹配 的 记录 。 这 是 在 存储 引擎 层 
完成 的 。 

EARS A mH 〈 在 Extra 列 中 出 现 了 Using index) 来 返回 记 
录 ， 直 接 从 索引 中 过 滤 不 需要 的 记录 并 返回 命中 的 结果 。 这 是 在 

MySQL 服 务 器 层 完成 的 ， 但 无 须 再 回 表 查询 记录 。 

从 数据 表 中 返回 数据 ， 然 后 过 滤 不 满足 条 件 的 记录 (在 Extra 列 中 
出 现 Using Where) 。 这 在 MySQL 服 务 器 层 完成 ，MySQL 需 要 先 从 
数据 表 读 出 记录 然后 过 滤 。 

















上 和 面 这 个 例子 说 明了 好 的 索引 多 么 重要 。 好 的 索引 可 以 让 查询 使 用 
合适 的 访问 类 型 ， 尽 可 能 地 只 扫描 需要 的 数据 行 。 但 也 不 是 说 增加 索引 
就 能 让 扫描 的 行 数 等 于 返回 的 行 数 。 例 如 下 面 使 用 聚合 函数 COUNT () 的 
Bi): 





mysql> SELECT actor_id, COUNT (*) FROM sakila.film_actor GROU 





这 个 碍 询 需 要 读 取 几 千 行 数 据 ， 但 是 仅 返回 200 行 结果 。 没 有 什么 
索引 能 够 让 这 样 的 查询 减少 需要 扫描 的 行 数 。 








不 幸 的 是 ，MySQL 不 会 告诉 我 们 生成 结果 实际 上 需要 扫描 多 少 行 
数据 弗 ， 而 只 会 告诉 我 们 生成 结果 时 一 共 扫 描 了 多 少 行 数据 。 扫 描 的 行 
数 中 的 大 部 分 都 很 可 能 是 被 WHERE 条 件 过 滤 掉 的 ， 对 最 终 的 结果 集 并 没 
有 贡献 。 在 上 面 的 例子 中 ， 我 们 删除 索引 后 ， 看 到 MySQL 需 要 扫描 所 
有 记录 然后 根据 WHERE 条 件 过 滤 ， 最 终 只 返回 10 行 结果 。 理 解 一 个 查询 
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和 和 思想 。 


Hi 





MRR AH mK E AHE R R IBID BT, AAE a 
以 尝试 下 面 的 技巧 去 优化 它 : 


。 HA main, AA mA AOE Al, ROE ASI 
擎 无 须 回 表 获 取 对 应 行 就 可 以 返回 结果 了 《在 前 面 的 章节 中 我 们 已 
经 讨论 过 了 ) 。 

改变 库 表 结构 。 例 如 使 用 单独 的 汇总 表 〈 这 是 我 们 在 第 4 章 中 讨论 
的 办 法 ) 。 

重 写 这 个 复杂 的 查询 ， 让 MySQL 优 化 器 能 够 以 更 优化 的 方式 执行 
这 个 查询 〈 这 是 本 章 后 续 需 要 讨论 的 问题 ) 。 
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在 优化 有 问题 的 查询 时 ， 目 标 应 该 是 找到 一 个 更 优 的 方法 获得 实际 
需要 的 结果 一 一 而 不 一 定 总 是 需要 从 MySQL 获 取 一 模 一 样 的 结果 集 。 
有 时 候 ， 可 以 将 查询 转换 一 种 写法 让 其 返回 一 样 的 结果 ， 但 是 性 能 
好 。 但 也 可 以 通过 修改 应 用 代码 ， 用 男 一 种 方式 完成 查询 ， 最 终 达到 一 
样 的 目的 。 这 一 节 我 们 将 介绍 如 何 通 过 这 种 方式 来 重 构 碍 询 ， 并 展示 何 
时 需要 使 用 这 样 的 技巧 。 


6.3.1 一 个 复杂 查询 还 是 多 个 简单 查 


询 


设计 但 询 的 时 候 一 个 需要 考虑 的 重要 问题 是 ， 是 否 需 要 将 一 个 复杂 
的 碍 询 分 成 多 个 简单 的 查询 。 在 传统 实现 中 ， 总 是 强调 需要 数据 库 层 完 
成 尽 可 能 多 的 工作 ， 这 样 做 的 逻辑 在 于 以 前 总 是 认为 网 络 通 信 、 碍 询 解 
析 和 优化 是 一 件 代 价 很 高 的 事情 。 























A 
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但 是 这 样 的 想法 对 于 MySQL 并 不 适用 ，MySQL 从 设计 上 让 连接 和 
断 开 连接 都 很 轻 量 级 ， 在 返回 一 个 小 的 查询 结果 方面 很 高 效 。 现 代 的 网 
络 速度 比 以 前 要 快 很 多 ， 无 论 是 融 宽 还 是 延迟 。 在 某 些 厂 本 的 MySQL 
上 ， 即 使 在 一 个 通用 服务 器 上 ， 也 能 够 运行 每 秒 超过 10 万 的 查询 ， 即 使 
是 一 个 干 兆 网卡 也 能 轻松 满足 每 秒 超过 2000 次 的 查询 。 所 以 运行 多 个 小 
查询 现在 已 经 不 是 大 问题 了 。 














MySQL 内 部 每 秒 能 够 扫 摘 内 存 中 上 百 万 行 数据 ， 相 比 之 下 ， 





MySQL Mi thee 2 mS S o ERRARE, BE 
用 尽 可 能 少 的 碍 询 当 然 是 更 好 的 。 但 是 有 时 候 ， 将 一 个 大 碍 询 分 解 为 多 
个 小 查询 是 很 有 必要 的 。 别 害怕 这 样 做 ， 好 好 衡量 一 下 这 样 做 是 不 是 会 
减少 工作 量 。 稍 后 我 们 将 通过 本 章 的 一 个 示例 来 展示 这 个 技巧 的 优势 。 








不 过 ， 在 应 用 设计 的 时 候 ， 如 果 一 个 查询 能 够 胜任 时 还 写成 多 个 独 
立 查 询 是 不 明智 的 。 例 如 ， 我 们 看 到 有 些 应 用 对 一 个 数据 表 做 10 次 独立 
的 查询 来 返回 10 行 数据 ， 每 个 查询 返回 一 条 结果 ， 查 询 10 次 ! 


6.3.2” 切 分 查询 


有 时 候 对 于 一 个 大 但 询 我 们 需要 “分 而 治之 ”"”， 将 大 但 询 切 分 成 小 查 
询 ， 每 个 查询 功能 完全 一 样 ， 只 完成 一 小 部 分 ， 每 次 只 返回 一 小 部 分 得 
询 结 





删除 旧 的 数据 就 是 一 个 很 好 的 例子 。 定 期 地 清除 大 量 数 据 时 ， 如 果 
用 一 个 大 的 语句 一 次 性 完成 的 话 ， 则 可 能 需要 一 次 锁 住 很 多 数据 、 占 满 
整个 事务 日 志 、 耗 尽 系 统 资 源 、 阻 塞 很 多 小 的 但 重要 的 查询 。 将 一 个 大 
的 DELETE 语 句 切 分 成 多 个 较 小 的 查询 可 以 尽 可 能 小 地 影响 MySQL 性 
能 ， 同 时 还 可 以 减少 MySQL 复 制 的 延迟 。 例 如 ， 我 们 需要 每 个 月 运行 
一 次 下 面 的 查询 : 











mysql> DELETE FROM messages WHERE created < DATE_SUB(NOW(),IN 


那么 可 以 用 类 似 下 面 的 办 法 来 完成 同样 的 工作 : 


rows_affected = 0 


do { 


rows_affected = do_query( 
"DELETE FROM messages WHERE created < DATE_SUB(NOW(), IN 
LIMIT 10000") 


} while rows_affected > 0 





一 次 删除 一 万 行 数 据 一 般 来 说 是 一 个 比较 高 效 而 且 对 服务 器 鸟 影响 
也 最 小 的 做 法 〈 如 果 是 事务 型 引擎 ， 很 多 时 候 小 事务 能 够 更 高 效 ) 。 同 
时 ， 需 要 注意 的 是 ， 如 果 每 次 删除 数据 后 ， 都 暂停 一 会 儿 再 做 下 一 次 删 
除 ， 这 样 也 可 以 将 服务 器 上 原本 一 次 性 的 压力 分 散 到 一 个 很 长 的 时 间 段 
中 ， 就 可 以 大 大 降低 对 服务 器 的 影响 ， 还 可 以 大 大 减少 删除 时 锁 的 持 有 
时 间 。 


6.3.3 DIERKA W 
很 多 高 性 能 的 应 用 都 会 对 关联 得 询 进 行 分 解 。 简 单 地 ， 可 以 对 每 一 


个 表 进 行 一 次 单 表 碍 询 ， 然 后 将 结果 在 应 用 程序 中 进行 关联 。 例 如 ， 下 
面 这 个 碍 询 : 





mysql> SELECT * FROM tag 
-> JOIN tag_post ON tag_post.tag_id=tag.id 
-> JOIN post ON tag_post.post_id=post.id 
-> WHERE tag.tag='mysql'; 


可 以 分 解 成 下 面 这 些 碍 询 来 代 答 : 


mysql> SELECT * FROM tag_post WHERE tag_id=1'; 


mysql> SELECT * FROM tag_post WHERE tag_id=1234; 


mysql> SELECT * FROM post WHERE post.id in (123, 456,567,909 


到 压 为 什么 要 这 样 做 ? 乍 一 看 ， 这 样 做 并 没有 什么 好 处 ， 原 本 一 条 








查询 ， 这 里 却 变 成 多 条 查询， 返回 的 结果 又 是 一 模 一 样 的 。 事 实 上 ， 用 
分 解 关联 查询 的 方式 重 构 查询 有 如 下 的 优势 : 








让 绥 存 的 效率 更 高 。 许 多 应 用 程序 可 以 方便 地 绥 存 单 表 查 询 对 应 的 
结果 对 象 。 例 如 ， 上 面 查询 中 的 tag 已 经 被 缓存 了 ， 那 么 应 用 就 可 
以 跳 过 第 一 个 查询 。 再 例如 ， 应 用 中 已 经 缓存 了 ID 为 123、567、 
9098 的 内 容 ， 那 么 第 三 个 查询 的 INO 中 就 可 以 少 几 个 ID。 另 外 ， 对 
MySQL 的 查询 缓存 来 说 包 ， 如 果 关 联 中 的 某 个 表 发 生 了 变化 ， 那 么 
就 无 法 使 用 查询 缓存 了 ， 而 拆 分 后 ， 如 果 某 个 表 很 少 改 变 ， 那 么 基 
于 该 表 的 查询 就 可 以 重复 利用 查询 缓存 结果 了 。 

将 查询 分 解 后 ， 执 行 单个 查询 可 以 减少 锁 的 竞争 。 

在 应 用 层 做 关联 ， 可 以 更 容易 对 数据 库 进行 拆 分 ， 更 容易 做 到 高 性 
能 和 可 扩展 。 

查询 本 身 效率 也 可 能 会 有 所 提升 。 这 个 例子 中 ， 使 用 INO 代替 关联 
查询 ， 可 以 让 MySQL 按 照 ID 顺序 进行 查询 ， 这 可 能 比 随机 的 关联 
要 更 高 效 。 我 们 后 续 将 详细 介绍 这 点 。 

可 以 减少 元 余 记 录 的 查询 。 在 应 用 层 做 关联 查询 ， 意 味 着 对 于 某 条 
记录 应 用 只 需要 查询 一 次 ， 而 在 数据 库 中 做 关联 查询 ， 则 可 能 需要 
重复 地 访问 一 部 分 数据 。 从 这 点 看 ， 这 样 的 重 构 还 可 能 会 减少 网 络 
和 内 存 的 消耗 。 

更 进一步 ， 这 样 做 相当 于 在 应 用 中 实现 了 哈 希 关联 ， 而 不 是 使 用 
MySQL 的 巷 套 循环 关联 。 某 些 场景 哈 希 关联 的 效率 要 高 很 多 〈 本 
章 后 续 我 们 将 讨论 这 点 ) 。 





























在 很 多 场景 下 ， 遂 过 重 构 查询 将 关联 放 到 应 用 程序 中 将 会 更 加 高 


效 ， 这 样 的 场景 有 很 多 ， 比 如 : SMART Ee eS Ed A 
的 时 候 、 当 可 以 将 数据 分 布 到 不 同 的 MySQL 服 务 器 上 的 时 候 、 当 能 够 
使 用 INO 的 方式 代 答 关联 得 询 的 时 候 、 当 碍 询 中 使 用 同一 个 数据 表 的 时 
候 。 


6.4 AVA UIT HY Ae hil 


当 和 希望 MySQL 能 够 以 更 高 的 性 能 运行 查询 时 ， 最 好 的 办 法 就 是 弄 
清楚 MySQL 是 如 何 优化 和 执行 查询 的 。 一 旦 理解 这 一 点 ， 很 多 查询 优 
化 工作 实际 上 束 是 遵循 一 些 原 则 让 优化 费 能 够 按照 预想 的 合理 的 方式 运 
行 。 





换 名 话说， 是 时 候 回 头 看 看 我 们 前 面 讨 论 的 内 容 了 : MySQL 执 行 
一 个 查询 的 过 程 。 根 据 图 6-1， 我 们 可 以 看 到 当 癌 MySQL 发 送 一 个 请 求 
的 时 候 ，MySQL 到 底 做 了 些 什 么 : 
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图 6-1: 查询 执行 路 径 





1. 客户 端 及 送 一 条 碍 询 给 服务 器 。 








2. 服务 器 先 检查 碍 询 缓存 ， 如 果 命 中 了 缓存 ， 则 立刻 返回 存储 在 缓存 
中 的 结果 。 人 否则 进入 下 一 阶段 。 

3. 服务 器 端 进行 SQL 解析 、 预 处 理 ， 再 由 优化 器 生成 对 应 的 执行 计 
划 。 

4. MySQL 根 据 优 化 如 生 成 的 执行 计划 ， 调 用 存储 引擎 的 API 来 执行 碍 
询 。 

5. 将 结果 返回 给 客户 端 。 








上 面 的 每 一 步 都 比 想象 的 复 人 本 ， 我 们 在 后 续 章 节 中 将 继续 讨论 。 我 
们 会 看 到 在 每 一 个 阶段 查询 处 于 何 种 状态 。 查 询 优化 器 是 其 中 特别 复杂 
也 特别 难 理解 的 部 分 。 还 有 很 多 的 例外 情况 ， 例 如 ， 当 查询 使 用 绑 定 变 
量 后 ， 执 行路 径 会 有 所 不 同 ， 我 们 将 在 下 一 章 讨论 这 点 。 





6.4.1 MySQL 客 尸 问 /服务 右 通 信 协 
议 


一 般 来 说 ， 不 需要 去 理解 MySQL 通 信 协 议 的 内 部 实现 细节 ， 只 需 
要 大 致 理解 通信 协议 是 如 何 工 作 的 。MySQL 客 尸 端 和 服务 器 之 间 的 通 
信 协 议 是 * 半 双 工 ”的 ， 这 意味 着 ， 在 任何 一 个 时 刻 ， 要 么 是 由 服务 器 向 
客户 端 发 送 数据 ， 要 么 是 由 客 己 端 癌 服务 器 发 送 数据 ， 这 两 个 动作 不 能 
同时 发 生 。 所 以 ， 我 们 无 法 也 无 须 将 一 个 消息 切 成 小 块 独立 来 发 送 。 








这 种 协议 让 MySQL 通 信 简 单 快 速 ， 但 是 也 从 很 多 地 方 限制 了 
MySQL。 一 个 明显 的 限制 是 ， 这 意味 着 没 法 进行 流量 控制 。 一 旦 一 端 
开始 发 生 消 息 ， 夯 一 端 要 接收 完整 个 消息 才能 啊 应 它 。 这 葡 像 来 回 抛 球 
的 游戏 ， 在 任何 时 刻 ， 只 有 一 个 人 能 控制 球 ， 而 且 只 有 控制 球 的 人 才能 








将 球 抛 回去 〈 发 送 消息 ) 。 





客户 端 用 一 个 单独 的 数据 包 将 查询 传 给 服务 器 。 这 也 是 为 什么 当 查 
询 的 语句 很 长 的 时 候 ， 参 数 nax_al1lowed_packet 就 特别 重要 了 外 。 一旦 
客户 端 发 送 了 请 求 ， 它 能 做 的 事情 就 只 是 等 待 结果 了 。 





相反 的 ， 一 般 服 务 器 响应 给 用 户 的 数据 通常 很 多 ， 由 多 个 数据 包 组 
成 。 当 服务 器 开始 响应 客户 端 请 求 时 ， 客 户 端 必须 完整 地 接收 整个 返回 
结果 ， 而 不 能 简单 地 只 取 前 面 几 条 结果 ， 然 后 让 服务 器 停止 发 送 数据 。 
这 种 情况 下 ， 客 户 端 若 接收 完整 的 结果 ， 然 后 取 前 面 几 条 需要 的 结 
或 者 接收 完 几 条 结果 后 就 粗暴 ?地 断 开 连接 ， 都 不 是 好 主意 。 这 也 是 在 
必要 的 时 候 一 定 要 在 查询 中 加 上 LIMIT 限 制 的 原因 。 











换 一 种 方式 解释 这 种 行为 ， 当 客户 并 从 服务 强 取 数据 时 ， 看 起 来 是 
一 个 拉 数 据 的 过 程 ， 但 实际 上 是 MySQL 在 向 客户 端 推送 数据 的 过 程 。 
客户 端 不 断 地 接收 从 服务 器 推送 的 数据 ， 客 户 端 也 没 法 让 服务 器 停 下 
来 。 客 户 问 像 是 “从 消防 水 管 喝 水 ”〈 这 是 一 个 术语 ) 。 





多 数 连接 MySQL 的 库 函 数 都 可 以 获得 全 部 结果 集 并 缓存 到 内 存 
里 ， 还 可 以 逐 行 获取 需要 的 数据 。 黑 认 一 般 是 获得 全 部 结果 集 并 缓存 到 
内 存 中 。MySQL 通 党 需要 等 所 有 的 数据 都 已 经 发 送 给 客户 端 才 能 释放 
这 条 盘 询 所 占用 的 资源 ， 所 以 接收 全 部 结果 并 缓存 通常 可 以 减少 服务 器 
的 压力 ， 让 奉 询 能 够 早点 结束 、 早 点 释放 相应 的 资源 。 





当 使 用 多 数 连 接 MySQL 的 库 函 数 从 MYSQL 获取 数据 时 ， 其 结果 看 
起 来 都 像 是 从 MySQL 服 务 器 获取 数据 ， 而 实际 上 都 是 从 这 个 库 函 数 的 
绥 存 获取 数据 。 多 数 情况 下 这 没什么 问题 ， 但 是 如 果 需 要 返回 一 个 很 大 
的 结果 集 的 时 候 ， 这 样 做 并 不 好 ， 因 为 库 函 数 会 伦 很 多 时 间 和 内 存 来 存 


储 所 有 的 结果 集 。 如 末 能 够 尽早 开始 处 理 这 些 结果 集 ， 残 能 大 大 减少 内 
存 的 消耗 ， 这 种 情况 下 可 以 不 使 用 缓存 来 记录 结果 而 是 直接 处 理 。 这 样 
做 的 缺点 是 ， 对 于 服务 器 来 说 ， 需 要 查询 完成 后 才能 释放 资源 ， 所 以 在 
和 客户 端 交 互 的 整个 过 程 中 ， 服 务 器 的 资源 都 是 被 这 个 碍 询 所 占用 的 

(8), 





我 们 看 看 当 使 用 P H P 的 时 候 是 什么 情况 。 首 先 ， 下 面 是 我 们 连接 
M y S QL 的 通常 写法 : 


<?php 
$link = mysql_connect('localhost', 'user', 'p4ssword'); 
$result = mysql_query('SELECT * FROM HUGE_TABLE', $link); 
while ( $row = mysql_fetch_array($result) ) { 

// Do something with result 


} 


?>} 











这 段 代码 看 起 来 像 是 只 有 当 你 需要 的 时 候 ， 才 通过 循环 从 服务 器 端 
取出 数据 。 而 实际 上 ， 在 上 面 的 代码 中 ， 在 调用 mysql_query () 的 时 
候 ，PHP 就 已 经 将 整个 结果 集 缓存 到 内 存 中 。 下 面 的 whi le 循环 只 是 从 
这 个 绥 存 中 逐 行 取出 数据 ， 相 反 如 果 使 用 下 面 的 查询 ， 

用 mysql_unbuffered_query () 代替 mysql_query () ，PHP 则 不 会 缓存 结 
R: 





<?php 
$link = mysql_connect('localhost', 'user', 'p4ssword'); 
$result = mysql_unbuffered_query('SELECT * FROM HUGE_TABLE', 


while ( $row = mysql_fetch_array($result) ) { 


// Do something with result 


不 同 的 编程 语言 处 理 缓存 的 方式 不 同 。 例 如 ， 在 Perl 的 DBD:mysql 驱 
动 中 需要 指定 C 连 接 库 的 mysq1_use_result 属 性 (默认 
是 mysql_buffer_result) 。 下 面 是 一 个 例子 


#!/usr/bin/perl 
use DBI; 
my $dbh = DBI->connect('DBI:mysgql:;host=localhost', 'user', ' 
my $sth = $dbh->prepare('SELECT * FROM HUGE_TABLE', { mysql_u 
$sth->execute(); 
while ( my $row = $sth->fetchrow_array() ) { 

# Do something with result 


} 


注意 到 上 面 的 prepare (调用 指定 了 mysql_use_result 属 性 为 1， 所 
以 应 用 将 直接 “使 用 ”返回 的 结果 集 而 不 会 将 其 缓存 。 也 可 以 在 连接 
MySQL 的 时 候 指 定 这 个 属性 ， 这 会 让 整个 连接 都 使 用 不 缓存 的 方式 处 
HARR: 





my $dbh = DBI->connect('DBI:mysql:;mysql_use_result=1', 'user 


查询 状态 


对 于 一 个 MySQL 连 接 ， 或 者 说 一 个 线程 ， 任 何 时 刻 都 有 一 个 状 
态 ， 该 状态 表示 了 MySQL 当 前 正在 做 什么 。 有 很 多 种 方式 能 查看 当前 





的 状态 ， 最 简单 的 是 使 用 SHOW FULL PROCESSLI1ST 命 令 ( 该 命令 返回 结 
果 中 的 Command 列 就 表示 当前 的 状态 ) 。 在 一 个 查询 的 生命 周期 中 ， 状 
态 会 变化 很 多 次 。MySQL 官 方 手册 中 对 这 些 状 态 值 的 含义 有 最 权威 的 
解释 ， 下 面 将 这 些 状态 列 出 来 ， 并 做 一 个 简单 的 解释 。 








Sleep 

线程 正在 等 待 客户 端 发 送 新 的 请 求 。 
Query 

线程 正在 执行 查询 或 者 正在 将 结果 发 送 给 客户 端 
Locked 


在 MySQL 服务 右 层 ， 该 线程 正在 等 竺 表 锁 。 在 存储 引擎 级 别 
实现 的 锁 ， 例 如 InnoDB 的 行 锁 ， 并 不 会 体现 在 线程 状态 中 。 对 于 
MyISAM 来 说 这 是 一 个 比较 典型 的 状态 ， 但 在 其 他 没有 行 锁 的 引擎 
中 也 经 常会 出 现 。 


Analyzing and statistics 
线程 正在 收集 存储 引擎 的 统计 信息 ， 并 生成 查询 的 执行 计划 。 


Copying to tmp table [on disk] 





线程 正在 执行 查询 ， 并 且 将 其 结果 集 都 复制 到 一 个 临时 表 中 ， 
这 种 状态 一 般 要 么 是 在 做 GROUP BY 操作 ， 要 么 是 文件 排序 操作 ， 或 
者 是 UNION 操 作 。 如 果 这 个 状态 后 面 还 有 “on disk” 标 记 ， 那 表示 
MySQL 下 在 将 一 个 内 存 临 时 表 放 到 磁盘 上 。 


The thread is 
线程 正在 对 结果 集 进 行 排序 。 
Sending data 


这 表示 多 种 情况 : 线程 可 能 在 多 个 状态 之 间 传 送 数据 ， 或 者 在 
生成 结果 集 ， 或 者 在 加 客户 端 返回 数据 。 





了 解 这 些 状态 的 基本 含义 非常 有 用 ， 这 可 以 让 你 很 快 地 了 解 当 
前 “ 谁 正在 持 球 ”名 。 在 一 个 繁忙 的 服务 器 上 ， 可 能 会 看 到 大 量 的 不 正常 
的 状态 ， 例 如 statistics 正 占用 大 量 的 时 间 。 这 通常 表示 ， 东 个 地 方 有 
异常 了 ， 可 以 通过 使 用 第 3 章 的 一 些 技巧 来 诊断 到 底 是 哪个 环节 出 现 了 


问题 。 





6.4.2 ”查询 缓存 (0) 





在 解析 一 个 碍 询 语句 之 前 ， 如 宁 碍 询 缓存 是 打开 的 ， 那 么 MySQL 
会 优先 检查 这 个 查询 是 否 命中 查询 缓存 中 的 数据 。 这 个 检查 是 通过 一 个 
对 大 小 写 敏感 的 哈 希 查找 实现 的 。 碍 询 和 缓存 中 的 查询 即使 只 有 一 个 字 
节 不 同 ， 那 也 不 会 匹配 缓存 结果 4， 这 种 情况 下 查询 就 会 进入 下 一 阶 
段 的 处 理 。 


如 果 当 前 的 查询 恰好 命中 了 查询 缓存 ， 那 么 在 返回 查询 结果 之 前 
MySQL 会 检查 一 次 用 户 权 限 。 这 仍然 是 无 须 解析 查询 SQL 语句 的 ， 因 为 
在 查询 缓存 中 已 经 存放 了 当前 查询 需要 访问 的 表 信 息 。 如 果 权 限 没 有 问 
题 ，MVySQL 会 路 过 所 有 其 他 阶段 ， 直 接 从 缓存 中 拿 到 结果 并 返回 给 客 














户 端 。 这 种 情况 下 ， 碍 询 不 会 被 解析 ， 不 用 生成 执行 计划 ， 不 会 被 执 
行 。 在 第 7 章 中 的 查询 缓存 一 节 ， 你 将 学 习 到 更 多 细节 。 


6.4.3 ”查询 优化 处 理 


查询 的 生命 周期 的 下 一 步 是 将 一 个 SQL 转 换 成 一 个 执行 计划 ， 
MySQL 再 依照 这 个 执行 计划 和 存储 引擎 进行 交互 。 这 包括 多 个 子 阶 
Er: 解析 SQL、 预 处 理 、 优 化 SQL 执 行 计划 。 这 个 过 程 中 任何 错误 例 
如 语法 错误 ) 都 可 能 终止 查询 。 这 里 不 打算 详细 介绍 MySQL 内 部 实 
现 ， 而 只 是 选择 性 地 介绍 其 中 几 个 独立 的 部 分 ， 在 实际 执行 中 ， 这 几 部 
分 可 能 一 起 执行 也 可 能 单独 执行 。 我 们 的 目的 是 帮助 大 家 理解 MySQL 
如 何 执行 查询 ， 以 便 写 出 更 优秀 的 得 询 。 











TEI APPT A PH POA EE 


首先 ，MySQL 通 过 关键 字 将 SQL 语句 进行 解析 ， 并 生成 一 棵 对 应 
的 “解析 树 ”。MySQL 解 析 顺 将 使 用 MySQL 语 法 规则 验证 和 解析 碍 询 。 
例如 ， 它 将 验证 是 否 使 用 错误 的 关键 字 ， 或 者 使 用 关键 字 的 顺序 是 否 
确 等 ， 再 或 者 它 还 会 验证 引号 是 否 能 前 后 正确 匹配 。 


预 处 理 器 则 根据 一 些 MySQL 规 则 进一步 检查 解析 树 是 否 合法 ， 例 
如 ， 这 里 将 检查 数据 表 和 数据 列 是 否 存在 ， 还 会 解析 名 字 和 别名 ， 看 看 
它们 是 否 有 歧义 。 








下 一 步 预 处 理 器 会 验证 权限 。 这 通常 很 快 ， 除 非 服 务 莫 上 有 非常 多 
的 权限 配置 。 


Ev Tt at 


PLETE BUA ce IK T, HH EC Ha 5 Se UT tt 
划 。 一 条 碍 询 可 以 有 很 多 种 执行 方式 ， 最 后 都 返回 相同 的 结果 。 优 化 器 
的 作用 就 是 找到 这 其 中 最 好 的 执行 计划 。 








MySQL 使 用 基于 成 本 的 优化 器， 它 将 尝试 预测 一 个 查询 使 用 茶 种 
执行 计划 时 的 成 本 ， 并 选择 其 中 成 本 最 小 的 一 个 。 最 初 ， 成 本 的 最 小 单 
位 是 随机 读 取 一 个 4K 数 据 页 的 成 本 ， 后 来 (成 本 计算 公式 ) 变 得 更 加 
复 淋 ， 并 且 引 入 了 一 些 “ 因 子 ” 来 估算 某 些 操 作 的 代价 ， 如 当 执 行 一 
次 WHERE 条 件 比较 的 成 本 。 可 以 通过 查询 当前 会 话 的 Last_query_cost 的 
值 来 得 知 MySQL 计 算 的 当前 查询 的 成 本 。 














mysql> SELECT SQL NO CACHE COUNT(*) FROM sakila.film actor; 
+----------+ 


+----------+ 
+-----------------+-------------+ 


+-----------------+-------------+ 


这 个 结果 表示 MySQL 的 优化 器 认为 大 概 需 要 做 1040 个 数据 页 的 随 
机 查找 才能 完成 上 面 的 查询。 这 是 根据 一 系列 的 统计 信息 计算 得 来 的 : 
每 个 表 或 者 索引 的 页 面 个 数 、 索 引 的 基数 《索引 中 不 同 值 的 数量 ) OR 
引 和 数据 行 的 长 度 、 索 引 分布 情 况 。 优 化 器 在 评估 成 本 的 时 候 并 不 考虑 
任何 层面 的 缓存 ， 它 假设 读 取 任何 数据 都 需要 一 次 磁盘 IO。 

















有 很 多 种 原因 会 导致 MySQL 优 化 器 选择 错误 的 执行 计划 ， 如 下 所 


e 统计 信息 不 准确 。MySQL 依 赖 存 储 引 擎 提供 的 统计 信息 来 评估 成 
本 ， 但 是 有 的 存储 引擎 提供 的 信息 是 准确 的 ， 有 的 偏差 可 能 非常 
大 。 例 如 ，InnoDB 因 为 其 MVCC 的 架构 ， 并 不 能 维护 一 个 数据 表 的 
行 数 的 精确 统计 信息 。 
执行 计划 中 的 成 本 估算 不 等 同 于 实际 执行 的 成 本 。 所 以 即使 统计 信 
息 精准 ， 优 化 器 给 出 的 执行 计划 也 可 能 不 是 最 优 的。 例如 有 了 时候 某 
个 执行 计划 虽然 需要 读 取 更 多 的 页 面 ， 但 是 它 的 成 本 却 更 小 。 因 为 
如 果 这 些 页 面 都 是 顺序 读 或 者 这 些 页 面 都 已 经 在 内 存 中 的 话 ， 那 么 
它 的 访问 成 本 将 很 小 。MySQL 层 面 并 不 知道 哪些 页 面 在 内 存 中 、 
哪些 在 磁盘 上 ， 所 以 查询 实际 执行 过 程 中 到 底 需 要 多 少 次 物理 IO 
是 无 法 得 知 的 。 
MySQL 的 最 优 可 能 和 你 想 的 最 优 不 一 样 。 你 可 能 希望 执行 时 间 尽 
可 能 的 短 ， 但 是 MySQL 只 是 基于 其 成 本 模型 选择 最 优 的 执行 计 
划 ， 而 有 些 时 候 这 并 不 是 最 快 的 执行 方式 。 所 以 ， 这 里 我 们 看 到 根 
据 执行 成 本 来 选择 执行 计划 并 不 是 完美 的 模型 。 
MySQL 从 不 考虑 其 他 并 发 执行 的 查询 ， 这 可 能 会 影响 到 当前 查询 
的 速度 。 
MySQL 也 并 不 是 任何 时 候 都 是 基于 成 本 的 优化 。 有 时 也 会 基于 一 
些 固 定 的 规则 ， 例 如 ， 如 果 存 在 全 文 搜索 的 MATCHO 子 句 ， 则 在 
存在 全 文 索引 的 时 候 就 使 用 全 文 索引 。 即 使 有 时 候 使 用 别 的 索引 和 
WHERE 条 件 可 以 远 比 这 种 方式 要 快 ，MySQL 也 仍然 会 使 用 对 应 的 全 
MRI 
。 MyYSQL 不 会 考虑 不 受 其 控制 的 操作 的 成 本 ， 例 如 执行 存储 过 程 或 
者 用 户 自 定 义 函 数 的 成 本 。 
。 后 面 我 们 还 会 看 到 ， 优 化 器 有 时 候 无 法 去 估算 所 有 可 能 的 执行 计 
划 ， 所 以 它 可 能 错过 实际 上 最 优 的 执行 计划 。 
































MySQL 的 查询 优 化 器 是 一 个 非 第 复杂 的 部 件 ， 它 使 用 了 很 多 优化 
打上 略 来 生成 一 个 最 优 的 执行 计划 。 优 化 策略 可 以 简单 地 分 为 两 种 ， 一 种 
古 静 态 优化 ， 一 种 是 动态 优化 。 静 态 优化 可 以 直接 对 解析 树 进行 分 析 ， 
并 完成 优化 。 例 如 ， 优 化 右 可 以 通过 一 些 简单 的 代数 变换 将 WHERE 条 件 
转换 成 另 一 种 等 价 形式 。 静 态 优化 不 依赖 于 特别 的 数值 ， 如 WHERE 条 件 
中 融入 的 一 些 利 数 等 。 静 态 优化 在 第 一 次 完成 后 就 一 直 有 效 ， 即 使 使 用 
不 同 的 参数 重复 执行 得 询 也 不 会 发 生变 化 。 可 以 认为 这 是 一 种 “编译 时 
优化 ”。 








相反 ， 动 态 优化 则 和 碍 询 的 上 下 文 有 关 ， 也 可 能 和 很 多 其 他 因素 有 
天 ， 例 如 WHERE 条 件 中 的 取 值 、 索 引 中 条 目 对 应 的 数据 行 数 等 。 这 需要 
在 每 次 查询 的 时 候 都 重新 评估 ， 可 以 认为 这 是 “运行 时 优化 ”。 





在 执行 语句 和 存储 过 程 的 时 候 ， 动 态 优化 和 裔 态 优化 的 区 别 非 第 重 
要 。MySQL 对 查询 的 静态 优化 只 需要 做 一 次 ， 但 对 伍 询 的 动态 优化 则 
在 每 次 执行 时 都 需要 重新 评估 。 有 时 候 甚至 在 查询 的 执行 过 程 中 也 会 重 
IRE. 02) 





下 面 是 一 些 MySQL 能 够 处 理 的 优化 类 型 : 


重新 定义 关联 表 的 顺序 








数据 表 的 关联 并 不 总 是 按照 在 查询 中 指定 的 顺序 进行 。 决 定 关 
联 的 顺序 是 优化 器 很 重要 的 一 部 分 功能 ， 本 章 后 面 将 深入 介绍 这 一 
Frio 


将 外 连接 转化 成 内 连接 


并 不 是 所 有 的 0UTER JOIN 语 句 都 必须 以 外 连接 的 方式 执行 。 庄 


多 因素 ， 例 如 WHERE 条 件 、 库 表 结 构 都 可 能 会 让 外 连接 等 价 于 一 个 
内 连接 。MySQL 能 够 识别 这 点 并 重 写 查 询 ， 让 其 可 以 调整 关联 顺 
序 。 


使 用 等 价 变 换 规 则 


MySQL 可 以 使 用 一 些 等 价 变换 来 简化 并 规范 表达 式 。 它 可 以 
合并 和 减少 一 些 比较 ， 还 可 以 移 除 一 些 恒 成 立 和 一 些 恒 不 成 立 的 判 
Wo PU, (5=5 AND ”a>5) 将 被 改写 为 a25。 类 似 的 ， 如 果 有 
(a<b AND b=c) AND a=5 则 会 改写 为 b>>5 AND b=c AND a=5。 这 些 
规则 对 于 我 们 编写 条 件 语 句 很 有 用 ， 我 们 将 在 本 章 后 续 继续 讨论 。 


优化 COUNT () 、MINO 和 MAX () 


索引 和 列 是 否 可 为 空 通 党 可 以 帮助 MySQL 优 化 这 类 表达 式 。 
例如 ， 要 找到 某 一 列 的 最 小 值 ， 只 需要 得 询 对 应 B-Tree 索 引 最 左 端 
的 记录 ，MySQL 可 以 直接 获取 索引 的 第 一 行 记 录 。 在 优化 器 生成 
执行 计划 的 时 候 束 可 以 利用 这 一 点 ， 在 B-Tree 索 引 中 ， 优 化 器 会 将 
这 个 表达 式 作 为 一 个 常数 对 待 。 类 似 的 ,如 果 要 查找 一 个 最 大 值 ， 
也 只 需 读 取 B-Tree 索 引 的 最 后 一 条 记录 。 如 果 MySQL 使 用 了 这 种 类 
型 的 优化 ， 那 么 在 EXPLAIN 中 就 可 以 看 到 “Select tables optimized 
away”。 从 字面 意思 可 以 看 出 ， 它 表示 优化 器 已 经 从 执行 计划 中 移 
除了 该 表 ， 并 以 一 个 常数 取而代之 。 

















类 似 的 ， 没 有 任何 WHERE 条 件 的 COUNT (*) 查询 通常 也 可 以 使 
用 存储 引擎 提供 的 一 些 优 化 〈 例 如 ，MyISAM 维 护 了 一 个 变量 来 存 
放 数 据 表 的 行 数 ) 。 


预 估 并 转化 为 第 数 表达 式 


当 MySQL 检 测 到 一 个 表达 式 可 以 转化 为 第 数 的 时 候 ， 束 会 一 
直 把 该 表达 式 作 为 常数 进行 优化 处 理 。 例 如 ， 一 个 用 户 自 定义 变量 
在 查询 中 没有 友和 生变 化 时 就 可 以 转换 为 一 个 第 数 。 数 学 表达 式 则 是 
另 一 种 典型 的 例子 。 








让 人 惊讶 的 是 ， 在 优化 阶段 ， 有 时 候 甚 至 一 个 查询 也 能 够 转化 
为 一 个 第 数 。 一 个 例子 是 在 索引 列 上 执行 MINO 函数 。 甚 至 是 主键 
或 者 唯一 键 碍 找 语 句 也 可 以 转换 为 币 数 表达 式 。 如 采 WHERE 子 句 中 
使 用 了 该 类 索引 的 常数 条 件 ，MySQL 可 以 在 查询 开始 阶段 就 先 查 
找到 这 些 值 ， 这 样 优化 避 就 能 够 知道 并 转换 为 常数 表达 式 。 下 面 是 
SBI 


mysql> EXPLAIN SELECT film.film_id, film_actor.actor_id 
-> FROM sakila.film 
=> INNER JOIN sakila.film_actor USING(film_id) 
-> WHERE film.film_id = 1; 
+ + 


+----+-------------+------------ +------- +---------------- +------- +------ + 
| id | select_type | table | type | key | ref | rows | 
----+------------- +------------ +------- +----------------+-------+------ 
| a | SNPE | film | const | PRIMARY | const | 4 | 
| 1 | SIMPLE | film actor | ref | idx fk film id | const | 10 | 
oo +------------ +------- +---------------- +------- +------ 十 


MySQL 分 两 步 来 执行 这 个 查询 ， 也 就 是 上 面 执行 计划 的 两 行 
输出 。 第 一 步 先 从 fim 表 找到 需要 的 行 。 因 为 在 film_id 字 段 上 有 主 
键 索 引 ， 所 以 MySQL 优 化 右 知 道 这 只 会 返回 一 行 数据 ， 优 化 右 在 
生成 执行 计划 的 时 候 ， 就 已 经 通过 索引 信息 知道 将 返回 多 少 行 数 
据 。 因 为 优化 器 已 经 明确 知道 有 多 少 个 值 (WHERE 条 件 中 的 值 》 需 
要 做 索引 得 询 ， 所 以 这 里 的 表 访 问 类 型 是 const。 








在 执行 计划 的 第 二 步 ，MySQL 将 第 一 步 中 返回 的 fi lm_id 列 当 
作 一 个 已 知 取 值 的 列 来 处 理 。 因 为 优化 需 清 楚 在 第 一 步 执行 完成 


后 ， 该 值 就 会 是 明确 的 了 。 注 意 到 正如 第 一 步 中 一 样 ， 使 
用 flm_actor 字 段 对 表 的 访问 类 型 也 是 const。 








另 一 种 会 看 到 第 数 条 件 的 情况 是 通过 等 式 将 常数 值 从 一 个 表 传 
到 另 一 个 表 ， 这 可 以 通过 WHERE、USING 或 者 ON 语句 来 限制 某 列 取 值 
为 音 数 。 在 上 面 的 例子 中 ， 因 为 使 用 了 USING 子 句 ， 优 化 器 知道 这 
也 限制 了 film_id 在 整个 查询 过 程 中 都 始终 是 一 个 常量 一 一 因为 它 
必须 等 于 WHERE 子 句 中 的 那个 取 值 。 


履 盖 索引 扫描 


当 索 引 中 的 列 包含 所 有 得 询 中 需要 使 用 的 列 的 时 候 ，MySQL 
就 可 以 使 用 索引 返回 需要 的 数据 ， 而 无 须 查 询 对 应 的 数据 行 ， 在 前 
面 的 章节 中 我 们 已 经 讨论 过 这 点 了 。 





子 查询 优化 


MySQL 在 茶 些 情况 下 可 以 将 子 碍 询 转换 一 种 效率 更 高 的 形 
式 ， 从 而 减少 多 个 查询 多 次 对 数据 进行 访问 。 





提前 终止 查询 


在 发 现 已 经 满足 查询 需求 的 时 候 ，MySQL 总 是 能 够 立刻 终止 
查询 。 一 个 典型 的 例子 就 是 当 使 用 了 LIMIT 子 句 的 时 候 。 除 此 之 
外 ，MySQL 还 有 几 类 情况 也 会 提前 终止 查询 ， 例 如 发 现 了 一 个 不 
成 立 的 条 件 ， 这 时 MySQL 可 以 立刻 返回 一 个 空 结果 。 从 下 面 的 例 
子 可 以 看 到 这 一 点 : 





mysql> EXPLAIN SELECT film.film_id FROM sakila.film WHERE film_id = -1; 
二- 
| td lae | Extra | 


E 1 aja .| Impossible WHERE noticed after reading const tables | 

从 这 个 例子 看 到 碍 询 在 优化 阶段 就 已 经 终止 。 除 此 之 外 ， 
MySQL 在 执行 过 程 中 ， 如 果 发 现 东 些 特殊 的 条 件 ， 则 会 提前 终止 
查询 。 当 存储 引擎 需要 检索 “不 同 取 值 ?或 者 判断 存在 性 的 时 候 ， 
MySQL 都 可 以 使 用 这 类 优化 。 例 如 ， 我 们 现在 再 要 找到 没有 演员 
的 所 有 电影 3 





mysql> SELECT film.film id 
-> FROM sakila. film 
-> LEFT OUTER JOIN sakila.film_actor USING(film_id) 


-> WHERE film_actor.film_id IS NULL; 








这 个 查询 将 会 过 滤 挥 所 有 有 演员 的 电影 。 每 一 部 电影 可 能 会 有 
很 多 的 演员 ， 但 是 上 面 的 查询 一 旦 找到 任何 一 个 ， 就 会 停止 并 立刻 
判断 下 一 部 电影 ， 因 为 只 要 有 一 名 演员 ， 那 么 WHERE 条 件 则 会 过 滤 
挥 这 类 电影 。 类 似 这 种 “不 同 值 /不 存在 ”的 优化 一 般 可 用 于 
DISTINCT, NOT EXIST (0) 或 者 LEFT JOIN 类 型 的 查询 。 














等 值 传播 


如 果 两 个 列 的 值 通过 等 式 关 联 ， 那 么 MySQL 能 够 把 其 中 一 个 
列 的 WHERE 条 件 传递 到 另 一 列 上 。 例 如 ， 我 们 看 下 面 的 查询 : 


mysql> SELECT film. film_id 
-> FROM sakila. film 
-> INNER JOIN sakila.film_actor USING(film_id) 


-> WHERE film.film_id > 500 


因为 这 里 使 用 了 film_id 字 段 进行 等 值 关 联 ，MySQL 知 道 这 里 
的 WHERE 子 名 不仅 适用 于 flm 表 ， 而 且 对 于 flm_actor 表 同样 适用 。 
如 果 使 用 的 是 其 他 的 数据 库 管 理 系统 ， 可 能 还 需要 手动 通过 一 些 条 
件 来 告知 优化 器 这 个 WHERE 条 件 适 用 于 两 个 表 ， 那 么 写法 就 会 如 
下 : 








. WHERE film.film_id > 500 AND film_actor.film_id > 500 








在 MySQL 中 这 是 不 必要 的 ， 这 样 写 反而 会 让 查询 更 难 维护 。 
PINO 的 比较 


在 很 多 数据 库 系 统 中 ，1N (0 完全 等 同 于 多 个 0OR 条 件 的 子 句 ， 
为 这 两 者 是 完全 等 价 的 。 在 MySQL 中 这 点 是 不 成 立 的 ，MySQL 
将 1N O 列表 中 的 数据 先进 行 排序 ， 然 后 通过 二 分 查找 的 方式 来 确定 
列表 中 的 值 是 否 满足 条 件 ， 这 是 一 个 O(log n) 复杂 度 的 操作 ， 等 
价 地 转换 成 OR 查询 的 复杂 度 为 O(n) ， 对 于 IN0O 列表 中 有 大 量 取 
值 的 时 候 ，MySQL 的 处 理 速度 将 会 更 快 。 








上 面 列举 的 远 不 是 MySQL 优 化 器 的 全 部 ，MySQL 还 会 做 大 量 其 他 
的 优化 ， 即 使 本 章 全 部 用 来 描述 也 会 篇 幅 不 足 ， 但 上 面 的 这 些 例 子 已 经 
足以 让 大 家 明白 优化 器 的 复杂 性 和 智能 性 了 。 如 果 说 从 上 面 这 段 讨论 中 
我 们 应 该 学 到 什么 ， 那 就 是 “不 要 自 以 为 比 优化 器 更 聪明 ”。 最 终 你 可 能 
会 占 点 便宜 ， 但 是 更 有 可 能 会 使 查询 变 得 更 加 复杂 而 难以 维护 ， 而 最 终 
的 收益 却 为 零 。 让 优化 器 按照 它 的 方式 工作 就 可 以 了 。 











当然 ， 虽 然 优化 器 已 经 很 智能 了 ， 但 是 有 时 候 也 无 法 给 出 最 优 的 结 


Ro AWARIE RE ECDC ha ES ARB, BG, He Fe Ep LE 
条 件 总 是 成 立 ; LAN, Tica THREE, Nea Sl; 再 如 
前 面 提 到 的 ， 从 优化 器 的 执行 成 本 角度 评估 出 来 的 最 优 执行 计划 ， 实 际 
运行 中 可 能 比 其 他 的 执行 计划 更 慢 。 





如 采 能 够 确认 优化 需 给 出 的 不 是 最 佳 选择 ， 并 且 清 楚 背 后 的 原理 ， 
那么 也 可 以 帮助 优化 器 做 进一步 的 优化 。 例 如 ， 可 以 在 查询 中 添加 hint 
提示 ， 也 可 以 重 写 碍 询 ， 或 者 重新 设计 更 优 的 库 表 结构 ， 或 者 添加 更 合 
适 的 索引 。 





数据 和 索引 的 统计 信息 





重新 回忆 一 下 图 1-1，MySQL 架 构 由 多 个 层次 组 成 。 在 服务 器 层 有 
查询 优化 器 ， 却 没有 保存 数据 和 索引 的 统计 信息 。 统 计 信 息 由 存储 引擎 
实现 ， 不 同 的 存储 引擎 可 能 会 存储 不 同 的 统计 信息 〈 也 可 以 按照 不 同 的 
格式 存储 统计 信息 ) 。 某 些 引擎， 例如 Archive 引 擎 ， 则 根本 就 没有 存 
储 任何 统计 信息 ! 





因为 服务 器 层 没有 任何 统计 信息 ， 所 以 MySQL 碍 询 优 化 器 在 生成 
查询 的 执行 计划 时 ， 需 要 问 存 储 引 擎 获取 相应 的 统计 信息 。 存 储 引 擎 则 
提供 给 优化 器 对 应 的 统计 信息 ， 包 括 : 每 个 表 或 者 索引 有 多 少 个 页 面 、 
每 个 表 的 每 个 索引 的 基数 是 多 少 、 数 据 行 和 索引 长 度 、 索 引 的 分 布 信息 
等 。 优 化 器 根据 这 些 信息 来 选择 一 个 最 优 的 执行 计划 。 在 后 面 的 小 市 中 
我 们 将 看 到 统计 信息 是 如 何 影响 优化 费 的 。 





























MySQL 如 何 执 行 关联 查询 


MySQL 中 “关联 ”9 一 词 所 包含 的 意义 比 一 般 意 义 上 理解 的 要 更 广 
泛 。 总 的 来 说 ，MySQL 认 为 任何 一 个 查询 都 是 一 次 “关联 盖 -一 并 不 仅仅 
是 一 个 查询 需要 到 两 个 表 匹 配 才 叫 关联 ， 所 以 在 MySQL 中 ， 每 一 个 碍 
询 ， 每 一 个 片段 〈 包 括 子 查询 ， 甚 至 基于 单 表 的 SELECT) 都 可 能 是 关 




















所 以 ， 理 解 MySQL 如 何 执行 关联 查询 至 关 重 要 。 我 们 先 来 看 一 
个 UN10N 查 询 的 例子 。 对 于 UN10N 查 询 ，MySQL 先 将 一 系列 的 单个 查询 
结果 放 到 一 个 临时 表 中 ， 然 后 再 重新 读 出 临时 表 数 据 来 完成 UN10N 查 
询 。 在 MySQL 的 概念 中 ， 每 个 查询 都 是 一 次 关联 ， 所 以 读 取 结果 临时 
表 也 是 一 次 关联 。 








当前 MySQL 关 联 执行 的 策略 很 简单 : MySQL 对 任何 关联 都 执行 租 
套 循 环 关 联 操作 ， 即 MySQL 先 在 一 个 表 中 循环 取出 单条 数据 ， 然 后 再 
内 套 循环 到 下 一 个 表 中 寻找 匹配 的 行 ， 依 次 下 去 ， 直 到 找到 所 有 表 中 匹 
配 的 行为 止 。 然 后 根据 各 个 表 匹 配 的 行 ， 返 回 查 询 中 需要 的 各 个 列 。 
MySQL 会 尝试 在 最 后 一 个 关联 表 中 找到 所 有 匹配 的 行 ， 如 果 最 后 一 个 
联 表 无 法 找到 更 多 的 行 以 后 ，MySQL 返 回 到 上 一 层次 关联 表 ， 看 是 否 
能 够 找到 更 多 的 匹配 记录 ， 依 此 类 推 迭代 执行 。43 





按照 这 样 的 方式 伍 找 第 一 个 表 记 录 ， 表 髓 套 查 询 下 一 个 关联 表 ， 然 
后 回溯 到 上 一 个 表 ， 在 MySQL 中 古 通 过 锯 僚 循环 的 方式 实现 一 一 正如 
其 名 “ 撰 套 循环 关联 ”。 请 看 下 面 的 例子 中 的 简单 查询 : 





mysql> SELECT tbl1.col1, tbl2.col2 
-> FROM tbl1 INNER JOIN tbl2 USING(col3) 
-> WHERE tbl1.coli IN(5,6) 


假设 MySQL 按 照 得 询 中 的 表 顺 序 进行 关联 操作 ， 我 们 则 可 以 用 下 
面 的 伪 代 人 码 表示 MySQL 将 如 何 完 成 这 个 查询 : 


outer_iter = iterator over tbl1 where col1 IN(5,6) 
outer_row = outer_iter.next 
while outer_row 
inner_iter = iterator over tbl2 where col3 = outer_row.col 
inner_row = inner_iter.next 
while inner_row 
output [ outer_row.col1, inner_row.col2 | 
inner_row = inner_iter.next 
end 
outer_row = outer_iter.netxt 


end 





上 面 的 执行 计划 对 于 单 表 碍 询 和 多 表 关 联 碍 询 都 适用 ， 如 果 是 一 个 
单 表 碍 询 ， 那 么 只 需 完 成 上 面 外 层 的 基本 操作 。 对 于 外 连接 上 面 的 执行 
过 程 仍然 适用 。 例 如 ， 我 们 将 上 面 得 询 修改 如 下 : 





mysql> SELECT tbhli.coli1, tbl2.col2 
-> FROM tbl1 LEFT OUTER JOIN tb12 USING(col13) 


-> WHERE tbl1.col1 IN(5,6); 


对 应 的 伪 代 码 如 下 ， 我 们 用 黑体 标示 不 同 的 部 分 : 


outer_iter = iterator over tbl1 where coli IN(5,6) 
outer_row = outer_iter.next 


while outer_row 


inner_iter = iterator over tbl2 where col3 = outer_row.col 
inner_row = inner_iter.next 
if inner_row 
while inner_row 
output [ outer_row.col1, inner_row.col2 | 
inner_row = inner_iter.next 
end 
else 
output [ outer_row.col1, NULL ] 
end 
outer_row = outer_iter.next 


end 
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对 应 的 * 泳 道 图 ”。 如 图 6-2 所 示 ， 绘 制 了 前 面 示 例 中 内 连接 的 泳 道 图 ， 
请 从 左 至 右 ， 从 上 至 下 地 看 这 幅 图 。 
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图 6-2: 通过 泳 道 图 展示 MySQL 如 何 完成 关联 查询 


从 本 质 上 说 ，MySQL 对 所 有 的 类 型 的 碍 询 都 以 同样 的 方式 运行 。 
例如 ，MySQL 在 FROM 子 句 中 遇 到 了 查询 时 ， 先 执行 子 碍 询 并 将 其 结 





JB — "SINT e-POD), FR IRS IT Ze 4 ER ee ee CE 
其 名 “派生 表 ”) 。MySQL 在 执行 UNION 查 询 时 也 使 用 类 似 的 临时 表 ， 
在 遇 到 右 外 连接 的 时 候 ，MySQL 将 其 改写 成 等 价 的 左 外 连接 。 简 而 言 
之 ， 当 前 版 本 的 MySQL 会 将 所 有 的 查询 类 型 都 转换 成 类 似 的 执行 计 
W- ua 





不 过 ， 不 是 所 有 的 碍 询 都 可 以 转换 成 上 面 的 形式 。 例 如 ， 全 外 连接 
就 无 法 通过 仍 套 循环 和 回溯 的 方式 完成 ， 这 时 当 发 现 关 联 表 中 没有 找到 
任何 匹配 行 的 时 候 ， 则 可 能 是 因为 关联 是 恰好 从 一 个 没有 任何 匹配 的 表 
开始 。 这 大 概 也 是 MySQL 并 不 文 持 全 外 连接 的 原因 。 还 有 些 场景 ， 虽 
然 可 以 转换 成 谋 套 循环 的 方式 ， 但 是 效率 却 非常 过 ， 后 面 我 们 会 看 一 个 
这 样 的 例子 。 











执行 计划 








和 很 多 其 他 关系 数据 库 不 同 ，MySQL 并 不 会 生成 查询 字 节 人 码 来 执 
行 查询 。MySQL 生 成 查询 的 一 棵 指令 树 ， 然 后 通过 存储 引擎 执行 完成 
这 村 指令 树 并 返回 结果 。 最 终 的 执行 计划 包含 了 重 构 查询 的 全 部 信息 。 
如 果 对 某 个 查询 执行 EXPLAIN EXTENDED 后 ， 再 执行 SHOW WARNINGS, xè 
可 以 看 到 重 构 出 的 查询 49。 


任何 多 表 碍 询 都 可 以 使 用 一 樟树 表示 ， 例 如 ， 可 以 按照 图 6-3 执 行 
一 个 四 表 的 关联 操作 。 
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图 6-3: 多 表 关 联 的 一 种 方式 


在 计算 机 科学 中 ， 这 被 称 为 一 条 平衡 树 。 但 是 ， 这 并 不 是 MySQL 
执行 查询 的 方式 。 正 如 我 们 前 面 章节 介绍 的 ，MVySQL 总 是 从 一 个 表 开 
始 一 直 绕 套 循 环 、 回 调 完 成 所 有 表 关 联 。 所 以 ，MVYSQL 的 执行 计划 总 
古 如 图 6-4 所 示 ， 是 一 梯 左 测 深度 优先 的 树 。 
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图 6-4: MySQL 如 何 实 现 多 表 关 联 




















KKA Las 


MySQL tt (2th eR EI, CRESTEN 
表 关 联 时 的 顺序 。 通 常 多 表 关 联 的 时 候 ， 可 以 有 多 种 不 同 的 关联 顺序 来 
获得 相同 的 执行 结果 。 关 联 碍 询 优化 需 则 通过 评 佑 不同 顺序 时 的 成 本 来 
选择 一 个 代价 最 小 的 关联 顺序 。 




















下 面 的 查询 可 以 通过 不 同 顺序 的 关联 最 后 都 获得 相同 的 结 


mysql> SELECT film.film_id, film.title, film.release_year, ac 


-> actor.first_name, actor.last_name 


-> FROM sakila.film 


-> INNER JOIN sakila.film_actor USING(film_id) 


-> INNER JOIN sakila.actor USING(actor_id); 


容易 看 出 ， 可 以 通过 一 些 不 同 的 执行 计划 来 完成 上 面 的 查询 。 例 
如 ，MySQL 可 以 从 film 表 开始 ， 使 用 film_actor 表 的 索引 film_id 来 查 
找 对 应 的 actor_id 值 ， 然 后 再 根据 actor 表 的 主键 找到 对 应 的 记录 。 
Oracle 用 户 会 用 下 面 的 术语 描述 : “film 表 作为 驱动 表 先 查找 fle_actor 
表 ， 然 后 以 此 结果 为 驱动 表 再 查找 actor 表 ”。 这 样 做 效率 应 该 会 不 错 ， 
我 们 再 使 用 EXPLAIN 看 看 MySQL 将 如 何 执行 这 个 查询 : 


类 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 1 row 大 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


1 
SIMPLE 
actor 
ALL 
PRIMARY 
NULL 
NULL 
NULL 
200 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 炎炎 2 row 大 炎炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


id: 


select_type: 


1 


SIMPLE 


table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 

Extra: 

FOI TO IO IO IOI TOTO TORII IK 加 ， 
id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


film_actor 

ref 

PRIMARY, idx_fk_film_id 
PRIMARY 

2 
sakila.actor.actor_id 
1 

Using index 

TOW BARR RRR IR IR IK k 
1 

SIMPLE 

film 

eq_ref 

PRIMARY 

PRIMARY 

2 

sakila.film_actor.film_id 


1 


这 和 我 们 前 面 给 出 的 执行 计划 完全 不 同 。MySQL 从 actor 表 开始 
《我 们 从 上 面 的 EXPLAIN 结 有 果 的 第 一 行 输出 可 以 看 出 这 点 ) ， 然 后 与 我 
们 前 面 的 计划 按照 相反 的 顺序 进行 关联 。 这 样 是 人 否 效率 更 高 呢 ? 我 们 来 
看 看 ， 我 们 先 使 用 STRA1GHT_JOIN 关 键 字 ， 按 照 我 们 之 前 的 顺序 执行 ， 
这 里 是 对 应 的 EXPLAIN 输 出 结果 : 


mysql> EXPLAIN SELECT STRAIGHT_JOIN film.film_id...\G 


火炎 火炎 大火 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 row 火炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


1 
SIMPLE 
film 
ALL 
PRIMARY 
NULL 
NULL 
NULL 
951 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 火炎 2 row 火炎 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


1 

SIMPLE 

film_actor 

ref 

PRIMARY, idx_fk_film_id 
idx_fk_film_id 

2 

sakila.film.film_id 

1 


Using index 


大 类 炎炎 炎炎 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 3 row 大 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 


id: 
select_type: 


table: 


type: 


1 
SIMPLE 
actor 


eq_ref 


possible_keys: PRIMARY 
key: PRIMARY 
key_len: 2 
ref: sakila.film_actor.actor_id 
rows: 1 


Extra: 


我 们 来 分 析 一 下 为 什么 MySQL 会 将 关联 顺序 倒转 过 来 : 可 以 看 
到 ， 关 联 顺序 倒转 后 的 第 一 个 关联 表 只 需要 扫描 很 少 的 行 数 品 。 在 两 
种 关联 顺序 下 ， 第 二 个 和 第 三 个 关联 表 都 是 根据 索引 得 询 ， 速 度 都 很 
快 ， 不 同 的 是 需要 扫描 的 索引 项 的 数量 是 不 同 的 : 




















。 将 flm 表 作为 第 一 个 关联 表 时 ， 会 找到 951 条 记录 ， 然 后 对 
film_actor 和 actor 表 进行 艇 套 循环 查询 。 

e 如 果 MySQL 选 择 首先 扫描 actor 表 ， 只 会 返回 200 条 记录 进行 后 面 的 
网 套 循 环 查 询 。 








换 句 话说 ， 倒 转 的 关联 顺序 会 让 查询 进行 更 少 的 嵌 套 循环 和 回溯 操 
作 。 为 了 验证 优化 器 的 选择 是 否 正确 ， 我 们 单独 执行 这 两 个 查询 ， 并 且 
看 看 对 应 的 Last_query_cost 状 态 值 。 我 们 看 到 倒转 的 关联 顺序 的 预 估 成 
本 C0 为 241， 而 原来 的 查询 的 预 估 成 本 为 1 154。 








这 个 简单 的 例子 主要 想 说 明 MySQL 是 如 何 选择 合适 的 关联 顺序 来 
让 查询 执行 的 成 本 尽 可 能 低 的 。 重 新 定义 关联 的 顺序 是 优化 器 非常 重要 
的 一 部 分 功能 。 不 过 有 的 时 候 ， 优 化 器 给 出 的 并 不 是 最 优 的 关联 顺序 。 
这 时 可 以 使 用 STRAIGHT JOIN 关键 字 重 写 查 询 ， 让 优化 器 按照 你 认为 
的 最 优 的 关联 顺序 执行 一 一 不 过 老实 说 ， 人 的 判断 很 难 那么 精准 。 绝 大 
多 数 时 候 ， 优 化 器 做 出 的 选择 都 比 普 通 人 的 判断 要 更 准确 。 





关联 优化 器 会 尝试 在 所 有 的 关联 顺序 中 选择 一 个 成 本 最 小 的 来 生成 
执行 计划 树 。 如 果 可 能 ， 优 化 器 会 允 历 每 一 个 表 然 后 逐个 做 授 侠 循环 计 
算 每 一 村 可 能 的 执行 计划 树 的 成 本 ， 最 后 返回 一 个 最 优 的 执行 计划 。 





不 过 ， 糟 糕 的 是 ， 如 果 有 超过 n 个 表 的 关联 ， 那 么 需要 检查 n 的 阶乘 
种 关联 顺序 。 我 们 称 之 为 所 有 可 能 的 执行 计划 的 “搜索 空间 *”， 搜 索 空间 
的 增长 速度 非常 块 一 一 例如 ， 若 是 10 个 表 的 关联 ， 那 么 共有 3628800 种 
不 同 的 关联 顺序 ! 当 搜 索 空 间 非 常 大 的 时 候 ， 优 化 器 不 可 能 逐一 评估 每 
一 种 关联 顺序 的 成 本 。 这 时 ， 优 化 器 选择 使 用 “ 仿 禁 ”搜索 的 方式 查 
找 “ 最 优 ” 的 关联 顺序 。 实 际 上 ， 当 需要 关联 的 表 超过 
optimizer_search_depth 的 限制 的 时 候 ， 就 会 选择 “ 贪 禁 ” 搜 索 模 式 了 
Coptimizer_search_depth 人 参数 可 以 根据 需要 指定 大 小 ) 。 

















在 MySQL 这些 年 的 发 展 过 程 中 ， 优 化 磺 积 累 了 很 多 “局 发 式 ” 的 优化 
打上 略 来 加 速 执 行 计划 的 生成 。 绝 大 多 数 情 况 下 ， 这 都 是 有 效 的 ， 但 因为 
不 会 去 计算 每 一 种 关联 顺序 的 成 本 ， 所 以 偶尔 也 会 选择 一 个 不 是 最 优 的 
执行 计划 。 





有 时 ， 各 个 碍 询 的 顺序 并 不 能 随意 安排 ， 这 时 关联 优化 器 可 以 根据 
这 些 规则 大 大 减少 搜索 空间 ， 例 如 ， 左 连接 、 相 关子 查询 (后 面 我 将 继 
WETAH) 。 这 是 因为 ， 后 面 的 表 的 查询 需要 依赖 于 前 面 表 的 碍 询 
结 末 。 这 种 依赖 关系 通 癌 可 以 帮助 优化 硕大 大 减少 需要 扫描 的 执行 计划 
数量 。 








排序 优化 


无 论 如 何 排序 都 是 一 个 成 本 很 高 的 操作 ， 所 以 从 性 能 角度 考 夸 ， 应 








尽 可 能 避免 排序 或 者 尽 可 能 避免 对 大 量 数据 进行 排序 。 


在 第 3 草 中 我 们 已 经 看 到 MySQL 如 何 通 过 索引 进行 排序 。 当 不 能 使 
用 索引 生成 排序 结果 的 时 候 ，MySQL 需 要 自己 进行 排序 ， 如 果 数 据 量 
小 则 在 内 存 中 进行 ， 如 果 数 据 量 大 则 需要 使 用 磁盘 ， 不 过 MySQL 将 这 
个 过 程 统 一 称 为 文件 排序 (filesort) ， 即 使 完全 是 内 存 排序 不 需要 任何 
磁盘 文件 时 也 是 如 此 。 














如 果 需 要 排序 的 数据 量 小 于 “排序 缓冲 区 *，MySQL 使 用 内 存 进 
行 “ 快 速 排序 ”操作 。 如 果 内 存 不 够 排序 ， 那 么 MySQL 会 先 将 数据 分 块 ， 
对 每 个 独立 的 块 使 用 “快速 排序 ”进行 排序 ， 并 将 各 个 块 的 排序 结果 存放 
在 磁盘 上 ， 然 后 将 各 个 排 好 序 的 块 进行 合并 〈merge) ， 最 后 返回 排序 
结果 。 





MySQL 有 如 下 两 种 排序 算法 : 
两 次 传输 排序 《旧版 本 使 用 ) 


读 取 行 指针 和 需要 排序 的 字段 ， 对 其 进行 排序 ， 然 后 再 根据 排 
序 结果 读 取 所 需要 的 数据 行 。 


这 需要 进行 两 次 数据 传输 ， 即 需要 从 数据 表 中 读 取 两 次 数据 ， 
第 二 次 读 取 数据 的 时 候 ， 因 为 是 读 取 排序 列 进行 排序 后 的 所 有 记 
录 ， 这 会 产生 大 量 的 随机 WO， 所 以 两 次 数据 传输 的 成 本 非常 高 。 
当 使 用 的 是 MyISAM 表 的 时 候 ， 成 本 可 能 会 更 高 ， 因 为 MyISAM 使 
用 系统 调用 进行 数据 的 读 取 (MyISAM 非 常 依赖 操作 系统 对 数据 的 
缓存 ) 。 不 过 这 样 做 的 优点 是 ， 在 排序 的 时 候 存 储 尽 可 能 少 的 数 
据 ， 这 就 让 “排序 缓冲 区 ”中 可 能 容纳 尽 可 能 多 的 行 数 进行 排序 。 











单 次 传输 排序 〈 新 版 本 使 用 ) 


先 读 取 查询 所 需要 的 所 有 列 ， 然 后 再 根据 给 定 列 进行 排序 ， 最 
后 直接 返回 排序 结果 。 这 个 算法 只 在 MySQL 4.1 和 后 续 更 新 的 版 本 
才 引 入 。 因 为 不 再 需要 从 数据 表 中 读 取 两 次 数据 ， 对 于 IO 密集 型 
的 应 用 ， 这 样 做 的 效率 高 了 很 多 。 另 外 ， 相 比 两 次 传输 排序 ， 这 个 
算法 只 需要 一 次 顺序 IO 读 取 所 有 的 数据 ， 而 无 顷 任 何 的 随机 IO 。 
缺点 是 ， 如 果 需 要 返回 的 列 非常 多 、 非 常 大 ， 会 额外 占用 大 量 的 空 
间 ， 而 这 些 列 对 排序 操作 本 身 来 说 是 没有 任何 作用 的 。 因 为 单条 排 
序 记录 很 大 ， 所 以 可 能 会 有 更 多 的 排序 块 需 要 合并 。 




















很 难说 哪个 算法 效率 更 高 ， 两 种 算法 都 有 各 自 最 好 和 最 糟 的 场 
景 。 当 但 询 需 要 所 有 列 的 总 长 度 不 超过 参 
数 max_length_for_sort_data 时 ，MySQL 使 用 * 单 次 传输 排序 >， 可 
以 通过 调整 这 个 参数 来 影响 MySQL 排 序 算 法 的 选择 。 关 于 这 个 细 
节 ， 可 以 参考 第 8 章 “ 文 件 排序 优化 ”。 





MySQL 在 进行 文件 排 友 的 时 候 需 要 使 用 的 临时 存储 空间 可 能 会 比 
想象 的 要 大 得 多 。 原 因 在 于 MySQL 在 排序 时 ， 对 每 一 个 排序 记录 都 会 
分 配 一 个 足够 长 的 定 长 空间 来 存放 。 





这 个 定 长 空间 必须 足够 长 以 容纳 其 中 最 长 的 字符 串 ， 例 如 ， 如 果 
是 VARCHAR 列 则 需要 分 配 其 完整 长 度 如 果 使 用 UTF-8 字 符 集 ， 那 么 
MySQL 将 会 为 每 个 字符 预 留 三 个 字 节 。 我 们 曾经 在 一 个 库 表 结构 设计 
不 合理 的 案例 中 看 到 ， 排 序 消耗 的 临时 空间 比 磁盘 上 的 原 表 要 大 很 多 


倍 。 








在 关联 查询 的 时 候 如 果 需 要 排序 ，MySQL 会 分 两 种 情况 来 处 理 这 


样 的 文件 排序 。 如 采 ORDER BY 子 句 中 的 所 有 列 都 来 自 关联 的 第 一 个 表 ， 
那么 MySQL 在 关联 处 理 第 一 个 表 的 时 候 就 进行 文件 排序 。 如 果 是 这 
样 ， 那 么 在 MySQL 的 EXPLAIN 结 果 中 可 以 看 到 Extra 字 段 会 有 “Using 
filesort”。 除 此 之 外 的 所 有 情况 ，MySQL 都 会 先 将 关联 的 结果 存放 到 一 
个 临时 表 中 ， 然 后 在 所 有 的 关联 都 结束 后 ， 再 进行 文件 排序 。 这 种 情况 
下 ， 在 MySQL 的 EXPLAIN 结 果 的 Extra 字 段 可 以 看 到 “Using 
temporary;Using ”人 fiesort*。 如 果 查 询 中 有 LIMIT 的 话 ，LIMIT 也 会 在 排序 
之 后 应 用 ， 所 以 即使 需要 返回 较 少 的 数据 ， 临 时 表 和 需要 排序 的 数据 量 
仍然 会 非常 大 。 


MySQL 5.6 在 这 里 做 了 很 多 重要 的 改进 。 当 只 需要 返回 部 分 排序 结 
打 的 时 候 ， 例 如 使 用 了 LIMIT 子 多 ，MySQL 不 再 对 所 有 的 结 末 进 行 排 
序 ， 而 是 根据 实际 情况 ， 选 择 抛 弃 不 满足 条 件 的 结果 ， 然 后 再 进行 排 
序 。 


6.4.4 查询 执行 引擎 


在 解析 和 优化 阶段 ，MySQL 将 生成 查询 对 应 的 执行 计划 ,MySQL 
的 碍 询 执行 引擎 则 根据 这 个 执行 计划 来 完成 整个 得 询 。 这 里 执行 计划 是 
一 个 数据 结构 ， 而 不 是 和 很 多 其 他 的 关系 型 数据 库 那 样 会 生成 对 应 的 字 
AY, 











相对 于 查询 优化 阶段 ， 查 询 执 行 阶段 不 是 那么 复杂 : MySQL A Æ 
简单 地 根据 执行 计划 给 出 的 指令 逐步 执行 。 在 根据 执行 计划 逐步 执行 的 
过 程 中 ， 有 大 量 的 操作 需要 通过 调用 存储 引擎 实现 的 接口 来 完成 ， 这 些 
接口 也 就 是 我 们 称 为 “handler APP 的 接口 。 碍 询 中 的 每 一 个 表 由 一 
个 handler 的 实例 表示 。 前 面 我 们 有 意 忽略 了 这 点 ， 实 际 上 ，MySQL 在 





优化 阶段 就 为 每 个 表 创 建 了 一 个 handler 实 例 ， 优 化 器 根据 这 些 实例 的 
接口 可 以 获取 表 的 相关 信息 ， 包 括 表 的 所 有 列 名 、 索 引 统计 信息 ， 等 


FY 
等 。 














存储 引擎 接口 有 着 非常 丰富 的 功能 ， 但 是 底层 接口 却 只 有 几 十 个 ， 
这 些 接口 像 “ 搭 积木 "一样 能 够 完成 查询 的 大 部 分 操作 。 例 如 ， 有 一 个 碍 
询 茶 个 索引 的 第 一 行 的 接口 ， 再 有 一 个 查询 茶 个 索引 条 目的 下 一 个 条 目 
的 功能 ， 有 了 这 两 个 功能 我 们 束 可 以 完成 全 索引 扫描 的 操作 了 。 这 种 简 
单 的 接口 模式 ， 让 MySQL 的 存储 引擎 插件 式 架构 成 为 可 能 ， 但 是 正如 
前 面 的 讨论 ， 也 给 优化 器 带 来 了 一 定 的 限制 。 




















E 并 不 是 所 有 的 换 作 都 由 handler 完 成 。 例 如 ， 当 MySQL 需 要 进行 表 镇 的 时 候 。handler 
可 能 会 实现 自己 的 级 别 的 、 更 细 粒 度 的 锁 ， 如 InnoDB 就 实现 了 自己 的 行 基本 锁 ， 但 这 并 不 能 代 
营 服 务 器 层 的 表 锁 。 正 如 我 们 第 1 章 所 介绍 的 ， 如 果 是 所 有 存储 引擎 共有 的 特性 则 由 服务 器 层 实 


现 ， 比 如 时 间 和 日 期 冰 数 、 视 图 、 触 发 器 等 。 



























































为 了 执行 查询 ，MySQL 只 需要 重复 执行 计划 中 的 各 个 操作 ， 直 到 
完成 所 有 的 数据 得 询 。 


6.4.5 返回 结果 给 客户 端 


查询 执行 的 最 后 一 个 阶段 是 将 结果 返回 给 客户 端 。 即 使 查询 不 需要 
返回 结果 集 给 客户 器 ，MySQL 仍 然 会 返回 这 个 碍 询 的 一 些 信息 ， 如 该 
碍 询 影响 到 的 行 数 。 


如 果 碍 询 可 以 被 缓存 ， 那 么 MySQL 在 这 个 阶段 也 会 将 结果 存放 到 
AWA F. 


MySQL 将 结果 集 返 回 客 户 端 是 一 个 增 量 、 逐 步 返 回 的 过 程 。 例 
如 ， 我 们 回头 看 看 前 面 的 关联 操作 ， 一 旦 服务 器 处 理 完 最 后 一 个 关联 
表 ， 开 始 生成 第 一 条 结果 时 ，MySQL 就 可 以 开始 同 客 户 端 逐步 返回 结 
RR T o 


这 样 处 理 有 两 个 好 处 : 服务 器 端 无 须 存储 太 多 的 结果 ， 也 就 不 会 因 
为 要 返回 太 多 结果 而 消耗 太 多 内 存 。 另 外 ， 这 样 的 处 理 也 让 MySQL 客 
户 端 第 一 时 间 获 得 返回 的 结果 %。 


结果 集中 的 每 一 行 都 会 以 一 个 满足 MySQL 客 户 端 /服务 器 通信 协议 
的 封包 发 送 ， 再 通过 TCP 协 议 进行 传输 ， 在 TCP 传 输 的 过 程 中 ， 可 能 对 
MySQL 的 封包 进行 缓存 然后 批量 传输 。 








6.5 ”MYSQL 查询 优化 器 的 局 限 性 


MySQL 的 万 能 * 航 套 循 环 ” 并 不 是 对 每 种 查询 都 是 最 优 的 。 不 过 还 
Hf» MISOL E WA CRANRA SOR 而 且 我 们 往往 可 以 通 
过 改写 得 询 让 MySQL 高 效 地 完成 工作 。 还 有 一 个 好 消息 ，MySQL 5.6 版 
ea 会 消除 很 多 MySQL 原 本 的 限制 ， 让 更 多 的 查询 能 够 以 

可 能 高 的 效率 完成 。 


6.5.1 关联 子 查 询 


MySQL 的 子 查 询 实现 得 非常 糟糕 。 最 糟糕 的 一 类 查询 是 WHERE 条 件 
中 包含 1N (0 的 子 查 询 语句 。 例 如 ， 我 们 希望 找到 Sakila 数 据 库 中 ， 演 员 
Penelope Guiness (他 的 actor_id 为 1) 参 演 过 的 所 有 影片 信息 。 很 自然 
的 ， 我 们 会 按照 下 面 的 方式 用 子 查 询 实 现 : 











mysql> SELECT * FROM sakila. film 
-> WHERE film_id IN( 


-> SELECT film_id FROM sakila.film_actor WHERE actor_i 


因为 MySQL 对 INO 列表 中 的 选项 有 专门 的 优化 策略 ， 一 般 会 认为 
MySQL 会 先 执行 子 查 询 返 回 所 有 包含 actor_id 为 1 的 fi lm_id。 一 般 来 
Bi, INQ 列表 碍 询 速 度 很 快 ， 所 以 我 们 会 认为 上 面 的 查询 会 这 样 执行 : 


- SELECT * FROM sakila.film-- SELECT GROUP_CONCAT(film_id) F 
- Result: 1,23,25,106,140,166,277, 361, 438, 499, 506, 509, 605, 63 


SELECT * FROM sakila. film 
WHERE film_id 


IN(1, 23, 25,106,140,166, 277, 361, 438, 499, 506, 509, 605, 635, 749, 83 


很 不 幸 ，MySQL 不 是 这 样 做 的 。MySQL 会 将 相关 的 外 层 表 压 到 子 
查询 中 ， 它 认为 这 样 可 以 更 高 效率 地 查找 到 数据 行 。 也 就 是 说 ， 
MySQL 会 将 查询 改写 成 下 面 的 样子 : 


SELECT * FROM sakila. film 
WHERE EXISTS ( 
SELECT * FROM sakila.film_actor WHERE actor_id = 1 


AND film_actor.film_id = film. film_id); 





这 时 ， 子 查询 需要 根据 film_id 来 关联 外 部 表 film， 因 为 需要 
film_id 字 段 ， 所 以 MySQL 认 为 无 法 先 执行 这 个 子 查 询 。 通 过 EXPLAIN 
我 们 可 以 看 到 子 查 询 是 一 个 相关 子 查询 (DEPENDENT SUBQUERY) (可 以 
使 用 EXPLAIN EXTENDED 来 查看 这 个 查询 被 改写 成 了 什么 样子 ) : 


EXPLAIN SELECT * — sakila. 55i eee 
+ 


| id | select type | table | type | possible keys | 
+----+--------------------+------------+--------+------------------------ + 
| 1 | PRIMARY i film | ALL | NULL | 
| 2 | DEPENDENT SUBQUERY | film actor | eq_ref l PRIMARY,idx fk film id | 
+----+--------------------+------------+--------+------------------------ 


根据 EXPLAIN 的 输出 我 们 可 以 看 到 ，MySQL 先 选择 对 fi le 表 进 行 全 
表 扫 描 ， 然 后 根据 返回 的 flm_id 逐 个 执行 子 查询 。 如 果 是 一 个 很 小 的 
表 ， 这 个 查询 糟糕 的 性 能 可 能 还 不 会 引起 注意 ， 但 是 如 果 外 层 的 表 是 一 
个 非常 大 的 表 ， 那 么 这 个 查询 的 性 能 会 非常 糟糕 。 当 然 我 们 很 容易 用 下 
面 的 办 法 来 重 写 这 个 查询 : 





mysql> SELECT film.* FROM sakila.film 


-> INNER JOIN sakila.film_actor USING(film_id) 


-> WHERE actor_id = 1; 


另 一 个 优化 的 办 法 是 使 用 函数 GROUP_CONCAT () 在 INO 中 构造 一 个 由 
逗号 分 隔 的 列表 。 有 时 这 比 上 面 的 使 用 关联 改写 更 快 。 因 为 使 用 INO 加 
子 查询 ， 性 能 经 常会 非常 糟 ， 所 以 通常 建议 使 用 EX1STS 0 等 效 的 改写 查 
询 来 获取 更 好 的 效率 。 下 面 是 另 一 种 改写 IN 0 加 子 查 询 的 办 法 : 











mysql> SELECT * FROM sakila. film 
-> WHERE EXISTS( 
-> SELECT * FROM sakila.film_actor WHERE actor_id = 1 


-> AND film_actor.film_id = film. film_id); 























Sa. 
个 分 支 MariaDB 则 在 原 有 的 优化 器 的 基础 上 做 了 大 量 的 改进 ， 例 如 这 里 提 到 的 INO 加 子 查询 改 


“a、| 这 里 讨论 的 优化 器 的 限制 直到 Oracle 推 出 的 MySQL ”5.5 都 一 直 存在 。MySQL 的 另 一 






































进 。 





如 何 用 好 关联 子 碍 询 





并 不 是 所 有 关联 子 碍 询 的 性 能 都 会 很 赤 。 如 果 有 人 跟 你 说 :“ 列 用 
RK AW", MADRE. FEMA, AM AON Al. IR 
候 ， 关 联 子 得 询 是 一 种 非常 合理 、 目 然 ， 甚 至 是 性 能 最 好 的 写法 。 我 们 
看 看 下 面 的 例子 : 





mysql> EXPLAIN SELECT film_id, language_id FROM sakila.film 
-> WHERE NOT EXISTS( 


-> SELECT * FROM sakila.film_actor 


-> 


-> )\G 
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id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 
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id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


WHERE film_actor.film_id = film. film_id 
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DEPENDENT SUBQUERY 

film_actor 

ref 

idx_fk_film_id 

idx_fk_film_id 

2 

film.film_id 
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Using where; Using index 


一 般 会 建议 使 用 左 外 连接 (LEFT OUTER JOIN) 重 写 该 查询 ， 以 代 


蔡 子 查询 。 理 论 上 ， 改 写 后 MYSQL 的 执行 计划 完全 不 会 改变 。 我 们 来 


看 这 个 例子 : 


mysql> EXPLAIN SELECT film.film id, film.language_id 
-> FROM sakila. film 
-> LEFT OUTER JOIN sakila.film_actor USING(film id) 


-> WHERE film_actor.film_id IS NULL\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 类 


FOI IOI IOI III J. row 
id: 1 
select_type: SIMPLE 
table: film 
type: ALL 
possible_keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 951 
Extra: 
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id: 1 


select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 


rows: 


SIMPLE 
film_actor 

ref 
idx_fk_film_id 
idx_fk_film_id 
2 


sakila.film.film_id 


2 


Extra: Using where; Using index; Not exists 
可 以 看 到 ， 这 里 的 执行 计划 基本 上 一 样 ， 下 面 是 一 些微 小 的 区 别 : 


o 表 flm_actor 的 访问 类 型 一 个 是 DEPENDENT ”SUBQUERY， 而 男 一 个 
是 SIMPLE。 这 个 不 同 是 由 于 语句 的 写法 不 同 导致 的 ， 一 个 是 普通 仁 
询 ， 一 个 是 子 查 询 。 这 对 底层 存储 引擎 接口 来 说 ， 没 有 任何 不 同 。 

。 对 film 表 ， 第 二 个 查询 的 Extra 中 没有 “Using ”where”， 但 这 不 重 
要 ， 第 二 个 查询 的 USING 子 句 和 第 一 个 查询 的 WHERE 子 句 实 际 上 是 完 
全 一 样 的 。 

。 在 第 二 个 表 fi lm_actor 的 执行 计划 的 Extra 列 有 “Not exists’. Ke 
我 们 前 面 章节 中 提 到 的 提前 终止 算法 Cearly-termination 
algorithm) ，MySQL 通 过 使 用 “Not exists” 优 化 来 避免 在 
表 fi Im_actor 的 索引 中 读 取 任何 额外 的 行 。 这 完全 等 效 于 直接 编写 
NOT EX1STS 子 查询 ， 这 个 执行 计划 中 也 是 一 样 ， 一 旦 匹配 到 一 行 数 
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所 以 ， 从 理论 上 讲 ，MySQL 将 使 用 完全 相同 的 执行 计划 来 完成 这 
个 查询 。 现 实 世 界 中 ， 我 们 建议 通过 一 些 测试 来 判断 使 用 哪 种 写法 速度 
会 更 快 。 针 对 上 面 的 案例 ， 我 们 对 两 种 写法 进行 了 测试 ， 表 6-1 中 列 出 
了 测试 结果 。 





#6-1: NOT EXISTS 和 左 外 连接 的 性 能 比较 





查询 每 秒 查 询 数 结果 (QPS) 


NOT EXISTS 子 查 询 360 QPS 
LEFT OUTER JOIN 425 QPS 


PRATT AH aah ER. {REA EE We FY Sy YS BR mS Gl ! 


不 过 每 个 具体 的 案例 会 各 有 不 同 ， 有 时 候 子 查 询 写 法 也 会 快 些 。 例 
如 ， 当 返回 结束 中 只 有 一 个 表 中 的 茶 些 列 的 时 候 。 听 起 来 ， 这 种 情况 对 
于 关联 得 询 效率 也 会 很 好 。 其 体 情 况 具体 分 析 ， 例 如 下 面 的 关联 ， 我 们 
希望 返回 所 有 包含 同一 个 演员 参 演 的 电影 ， 因 为 一 个 电影 会 有 很 多 演员 
参 演 ， 所 以 可 能 会 返回 一 些 重复 的 记录 : 


mysql> SELECT film.film id FROM sakila.film 
-> INNER JOIN sakila.film actor USING(film id); 


我 们 需要 使 用 DISTINCT 和 GROUP BY 来 移 除 重复 的 记录 : 


mysql> SELECT DISTINCT film.film id FROM sakila.film 
-> INNER JOIN sakila.film_actor USING(film_id); 


但 是 ， 回 头 看 看 这 个 查询 ， 到 底 这 个 查询 返回 的 结果 集 意 义 是 什 
A? 至 少 这 样 的 写法 会 让 SQL 的 意义 很 不 明显 。 如 果 使 用 EXISTS 则 很 
容易 表达 “包含 同一 个 参 演 演 员 ” 的 逻辑 ， 而 且 不 需要 使 用 DISTINCT 和 
GROUP BY， 也 不 会 产生 重复 的 结果 集 ， 我 们 知道 一 旦 使 用 了 DISTINCT 和 
GROUP BY， 那 么 在 查询 的 执行 过 程 中 ， 通 常 需要 产生 临时 中 间 表 。 下 面 
我 们 用 子 查询 的 写法 蔡 换 上 面 的 关联 ; 











mysql> SELECT film id FROM sakila. film 
-> WHERE EXISTS(SELECT * FROM sakila.film_actor 


-> WHERE film.film id = film_actor.film_id); 





再 一 次 ， 我 们 需要 通过 测试 来 对 比 这 两 种 写法 ， 哪 个 更 快 一 些 。 测 
试 结果 参考 表 6-2。 


表 6-2: EX1STS 和 关联 性 能 对 比 





查询 每 秒 查 询 数 结果 (QPS) 


INNER JOIN 185 QPS 
EXISTS 子 查询 325 QPS 


在 这 个 案例 中 ， 我 们 看 到 子 查 询 速 度 要 比 关 联 碍 询 更 快 些 。 


通过 上 面 这 个 详细 的 案例 ， 主 要 想 说 明 两 点 : 一 是 不 需要 听取 那些 
关于 子 查询 的 “绝对 真理 ”， 二 是 应 该 用 测试 来 验证 对 子 查 询 的 执行 计划 
和 响应 时 间 的 假设 。 最 后 ， 关 于 子 查 询 我 们 需要 提 到 的 是 一 个 MySQL 
的 bug。 在 MYSQL 5.1.48 和 之 前 的 版 本 中 ， 下 面 的 写法 会 锁 住 table2 中 
的 一 条 记录 : 





SELECT ... FROM table1 WHERE col = (SELECT ... FROM table2 WH 


URIS Zbug, PAW ERI RTL PIERE, mies Alte R RE 
测试 时 的 性 能 相差 其 远 。 这 个 bug 的 编号 是 46947， 虽 然 这 个 问题 已 经 被 
修复 了 ， 但 是 我 们 仍然 要 提醒 读者 : 不 要 主观 猜测 ， 应 该 通过 测试 来 验 
证 猜想 。 


6.5.2 ” UNION 的 限制 





有 时 ，MySQL 无 法 将 限制 条 件 从 外 层 “ 下 推 ? 到 内 层 ， 这 使 得 原本 能 
够 限制 部 分 返回 结果 的 条 件 无 法 应 用 到 内 层 查 询 的 优化 上 。 


如 果 和 希望 UNION 的 各 个 子 句 能 够 根据 LIMIT 只 取 部 分 结果 集 ， 或 者 希 


望 能 够 移 排 好 序 再 合并 结果 集 的 话 ， 就 需要 在 UNION 的 各 个 子 句 中 分 别 

使 用 这 些 子 句 。 例 如 ， 想 将 两 个 子 碍 询 结果 联合 起 来 ， 然 后 再 取 前 20 条 
记录 ， 那 么 MySQL 会 将 两 个 表 都 存放 到 同一 个 临时 表 中 ， 然 后 再 取出 

前 20 行 记录 : 





(SELECT first_name, last_name 
FROM sakila.actor 

ORDER BY last_name) 
UNION ALL 

(SELECT first_name, last_name 
FROM sakila.customer 

ORDER BY last_name) 


LIMIT 20; 


这 条 查询 将 会 把 actor 中 的 200 条 记录 和 customer 表 中 的 599 条 记录 
存放 在 一 个 临时 表 中 ， 然 后 再 从 临时 表 中 取出 前 20 条 。 可 以 通过 
在 UN10N 的 两 个 子 查 询 中 分 别 加 上 一 个 LIMIT 20 来 减少 临时 表 中 的 数 
据 : 


(SELECT first_name, last_name 
FROM sakila.actor 

ORDER BY last_name 

LIMIT 20) 
UNION ALL 

(SELECT first_name, last_name 
FROM sakila.customer 

ORDER BY last_name 


LIMIT 20) 


LIMIT 20; 


现在 中 间 的 临时 表 只 会 包含 40 条 记录 了 ， 除 了 性 能 考虑 之 外 ， 在 这 
里 还 需要 注意 一 点 : 从 临时 表 中 取出 数据 的 顺序 并 不 是 一 定 的 ， 所 以 如 
果 想 获得 正确 的 顺序 ， 还 需要 加 上 一 个 全 局 的 ORDER BY 和 LIMIT 操 作 。 


65.3 ”索引 合并 优化 


在 前 面 的 章节 已 经 讨论 过 ， 在 5.0 和 更 新 的 版 本 中 ， 当 WHERE 子 句 中 
包含 多 个 复杂 条 件 的 时 候 ，MySQL 能 够 访问 单个 表 的 多 个 索引 以 合并 
和 交叉 过 滤 的 方式 来 定位 需要 得 找 的 行 。 


6.5.4 ”等 值 传递 


某 些 时 候 ， 等 值 传递 会 带 来 一 些 意 想 不 到 的 额外 消耗 。 例 如 ， 有 一 
个 非常 大 的 INO 列表 ， 而 MySQL 优 化 器 发 现存 在 WHERE、0ON 或 者 USI1NG 
的 子 句 ， 将 这 个 列表 的 值 和 另 一 个 表 的 某 个 列 相关 联 。 

















那么 优化 器 会 将 INO 列表 都 复制 应 用 到 关联 的 各 个 表 中 。 通 钊 ， 
为 各 个 表 新 增 了 过 滤 条 件 ， 优 化 占 可 以 更 高 效 地 从 存储 引擎 过 小 记录 。 
但 是 如 果 这 个 列表 非常 大 ， 则 会 导致 优化 和 执行 都 会 变 慢 。 在 本 书写 作 
的 时 候 ， 除 了 修改 MySQL 源 代码 ， 目 前 还 没有 什么 办 法 能 够 纸 过 该 问 
题 〈 不 过 这 个 问题 很 少 会 碰 到 ) 。 


6.5.5 ”并 行 执 行 





MySQL 无 法 利用 多 核 特 性 来 并 行 执行 查询 。 很 多 其 他 的 关系 型 数 
据 库 能 够 提供 这 个 特性 ， 但 是 MySQL 做 不 到 。 这 里 特别 指出 是 想 告诉 
读者 不 要 人 花 时 间 去 答 试 寻找 并 行 执 行 得 询 的 方法 。 


6.5.6 ” 哈 希 关联 


在 本 书写 作 的 时 候 ，MySQL 并 不 支持 哈 希 关联 一 一 MySQL 的 所 有 
关联 都 是 散 套 循环 关联 。 不 过 ， 可 以 通过 建立 一 个 哈 希 索引 来 曲线 地 实 
现 哈 希 关 联 。 如 果 使 用 的 是 Memory 存 储 引 擎 ， 则 索引 都 是 哈 希 索引 ， 
所 以 关联 的 时 候 也 类 似 于 哈 希 关联 。 可 以 参考 第 5 章 的 “创建 自 定 义 哈 希 
索引 ”部 分 。 另 外 ，MariaDB 已 经 实现 了 真正 的 哈 希 关 联 。 














6.5.7 松散 索引 扫描 (23) 


由 于 历史 原因 ，MySQL 并 不 文 持 松散 索引 扫描 ， 也 就 无 法 按照 不 
连续 的 方式 扫描 一 个 索引 。 通 常 ，MySQL 的 索引 扫描 需要 先 定义 一 个 
起 点 和 终点 ， 即 使 需要 的 数据 只 是 这 段 索 引 中 很 少数 的 几 个 ，MySQL 
仍 需 要 扫描 这 段 索 引 中 每 一 个 条 目 。 











下 面 我 们 通过 一 个 示例 说 明 这 点 。 假 设 我 们 有 如 下 索引 Ca, b), 
有 下 面 的 查询 : 


mysql> SELECT ... FROM tbl WHERE b BETWEEN 2 AND 3; 


因为 索引 的 前 导 字 段 是 列 a， 但 是 在 查询 中 只 指定 了 字段 b， 
MySQL 无 法 使 用 这 个 索引 ， 从 而 只 能 通过 全 表 扫 描 找 到 匹配 的 行 ， 如 


图 6-5 所 示 。 









































图 6-5: MySQL 通 过 全 表 扫 描 找 到 需要 的 记录 


了 解 索引 的 物理 结构 的 话 ， 不 难 发 现 还 可 以 有 一 个 更 快 的 办 法 执行 
上 面 的 查询。 索引 的 物理 结构 〈 不 是 存储 引擎 的 API) 使 得 可 以 先 扫描 a 
列 第 一 个 值 对 应 的 b 列 的 范围 ， 然 后 再 跳 到 a 列 第 二 个 不 同 值 扫描 对 应 的 
b 列 的 范围 。 图 6-6 展 示 了 如 果 由 MySQL 来 实现 这 个 过 程 会 怎样 。 
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图 6-6: 使 用 松散 索引 扫描 效率 会 更 高 ， 但 是 MySQL 现 在 还 不 支持 这 么 做 


注意 到 ， 这 时 就 无 须 再 使 用 WHERE 子 句 过 滤 ， 因 为 松散 索引 扫描 
己 经 跳 过 了 所 有 不 需要 的 记录 。 





上 面 是 一 个 简单 的 例子 ， 除 了 松散 索引 扫描 ， 新 增 一 个 合适 的 索引 
当然 也 可 以 优化 上 述 奉 询 。 但 对 于 某 些 场景 ， 增 加 索引 是 没 用 的 ， 例 
如 ， 对 于 第 一 个 索引 列 是 范围 条 件 ， 第 二 个 索引 列 是 等 值 条 件 的 查询 ， 
徘 增加 索引 残 无 法 解决 问题 。 











MySQL 5.0 之 后 的 版 本 ， 在 某 些 特殊 的 场景 下 是 可 以 使 用 松散 索引 
扫描 的 ， 例 如 ， 在 一 个 分 组 查询 中 需要 找到 分 组 的 最 大 值 和 最 小 值 : 





mysql> EXPLAIN SELECT actor_id, MAX(film_id) 
-> FROM sakila.film_actor 
-> GROUP BY actor_id\G 
FOI III IO ICICI IO III J, pow FIO IOI TIO IOI A ak 
id: 1 
select_type: SIMPLE 
table: film_actor 
type: range 
possible_keys: NULL 
key: PRIMARY 
key_len: 2 
ref: NULL 
rows: 396 


Extra: Using index for group-by 


在 EXPLAIN 中 的 Extra 字 段 显 示 “Using index for group-by”， 表 示 这 里 
将 使 用 松散 索引 扫描 ， 不 过 如 果 MySQL 能 写 上 “loose index probe”, +H 


信 会 更 好 理解 。 


在 MySQL 很 好 地 支持 松散 索引 扫描 之 前 ， 一 个 简单 的 绕 过 问题 的 
办 法 就 是 给 前 面 的 列 加 上 可 能 的 常数 值 。 在 前 面 索 引 案 例 学 习 的 章 市 
中 ， 我 们 已 经 看 到 这 样 做 的 好 处 了 。 





在 MySQL ”5.6 之 后 的 版 本 ， 关 于 松散 索引 扫描 的 一 些 限制 将 会 通 
过 “索引 条 件 下 推 (index condition pushdown) ”的 方式 解决 。 


6.5.8 ”最 大 值 和 最 小 值 优 化 


对 于 MIN() 和 MAX O 查询 ，MySQL 的 优化 做 得 并 不 好 。 这 里 有 一 个 
例子 : 


mysql> SELECT MIN(actor_id) FROM sakila.actor WHERE first_nam 


因为 在 first_name 字 段 上 并 没有 索引 ， 因 此 MySQL 将 会 进行 一 次 
全 表 扫 描 。 如 果 MySQL 能 够 进行 主键 扫描 ， 那 么 理论 上 ， 当 MySQL 读 
到 第 一 个 满足 条 件 的 记录 的 时 候 ， 束 是 我 们 需要 找 的 最 小 值 了 ， 因 为 主 
键 是 严格 按照 actor_id 字 段 的 大 小 顺序 排列 的 。 但 是 MySQL 这 时 只 会 
做 全 表 扫 描 ， 我 们 可 以 通过 查看 SHOW ”STATUS 的 全 表 扫 描 计数 器 来 验证 
这 一 点 。 一 个 曲线 的 优化 办 法 是 移 除 MINO， 然 后 使 用 LIMIT 来 将 查询 
重 写 如 下 : 


mysql> SELECT actor_id FROM sakila.actor USE INDEX(PRIMARY) 


-> WHERE first_name = 'PENELOPE' LIMIT 1; 


这 个 策略 可 以 让 MySQL 扫 描 尽 可 能 少 的 记录 数 。 如 果 你 是 一 个 完 


美 主义 者 ， 可 能 会 说 这 个 SQL 已 经 无 法 表达 她 的 本 意 了 。 一 般 我 们 通过 
SQL 告诉 服务 局 我 们 需要 什么 数据 ， 由 服务 器 来 决定 如 何 最 优 地 获取 数 
据 ， 不 过 在 这 个 案例 中 ， 我 们 其 实 是 告诉 MyYSQL 如 何 去 获取 我 们 需要 
的 数据 ， 通 过 SQL 并 不 能 一 眼 就 看 出 我 们 其 实 是 想 要 一 个 最 小 值 。 确 实 
如 此 ， 有 了 时候 为 了 获得 更 高 的 性 能 ， 我 们 不 得 不 放弃 一 些 原则 。 


6.5.9 ”在 同一 个 表 上 查询 和 更 新 


MySQL 不 允许 对 同一 张 表 同时 进行 得 询 和 更 新 。 这 其 实 并 不 是 优 
化 器 的 限制 ， 如 果 清 楚 MySQL 是 如 何 执行 查询 的 ， 就 可 以 避免 这 种 情 
况 。 下 面 是 一 个 无 法 运行 的 SQL， 虽 然 这 是 一 个 符合 标准 的 SQL 语句 。 
这 个 SQL 语句 答 试 将 两 个 表 中 相似 行 的 数量 记录 到 字段 cnt 中 : 





mysql> UPDATE tbl AS outer_tbl 
-> SET cnt = ( 
-> SELECT count(*) FROM tbl AS inner_tbl 
-> WHERE inner_tbl.type = outer_tbl.type 
=> ); 
ERROR 1093 (HY000): You can't specify target table 'outer_tbl 


clause 


可 以 通过 使 用 生成 表 的 形式 来 绕 过 上 和 面 的 限制 ， 因 为 MySQL 只 会 
把 这 个 表 当 作 一 个 临时 表 来 处 理 。 实 际 上 ， 这 执行 了 两 个 查询 : 一 个 是 
子 查 询 中 的 SELECT 语 句 ， 男 一 个 是 多 表 关 联 UPDATE， 只 是 关联 的 表 古 
一 个 临时 表 。 子 查询 会 在 UPDATE 语 句 打 开 表 之 前 就 完成 ， 所 以 下 面 的 查 
询 将 会 正常 执行 : 














mysql> UPDATE tbl 


-> INNER JOIN(www.it-eboo 


-> SELECT type, count(*) AS cnt 
-> FROM tbl 
-> GROUP BY type 


-> ) AS der USING(type) 


-> SET tbhl.cnt = der.cnt; 


6.6 ”查询 优化 器 的 提示 (hint) 


如 果 对 优化 器 选择 的 执行 计划 不 满意 ， 可 以 使 用 优化 器 提供 的 几 个 
提示 Cint) 来 控制 最 终 的 执行 计划 。 下 面 将 列举 一 些 常 见 的 提示 ， 并 
简单 地 给 出 什么 时 候 使 用 该 提示 。 通 过 在 查询 中 加 入 相应 的 提示 ， 就 可 
以 控制 该 查询 的 执行 计划 。 关 于 每 个 提示 的 具体 用 法 ， 建 议 直接 阅读 
MySQL 官方 手册 。 有 些 提 示 和 版 本 有 直接 关系 。 可 以 使 用 的 一 些 提示 
如 下 : 


HIGH_PRIORITY 和 LOW_PRIORITY 


这 个 提示 告诉 MySQL， 当 多 个 语句 同时 访问 某 一 个 表 的 时 
候 ， 哪 些 语 名 的 优先 级 相对 高 些 、 哪 些 语 名 的 优先 级 相对 低 些 。 


HIGH_PRIORITY 用 于 SELECT 语句 的 时 候 ，MySQL 会 将 此 
SELECT 语句 重新 调度 到 所 有 正在 等 待 表 锁 以 便 修 改 数据 的 语句 之 
前 。 实 际 上 MySQL 是 将 其 放 在 表 的 队列 的 最 前 面 ， 而 不 是 按照 常 
规 顺序 等 待 。HI1GH_PRI10ORITY 还 可 以 用 于 INSERT 语 句 ， 其 效果 只 是 
简单 地 抵消 了 全 局 LOW_PRIORITY 设 置 对 该 语句 的 影响 。 











LOW_PRIORITY 则 正好 相反 : 它 会 让 该 语句 一 直 处 于 等 待 状态 ， 
只 要 队列 中 还 有 需要 访问 同一 个 表 的 语句 一 一 即使 是 那些 比 该 语句 
还 晚 提 交 到 服务 器 的 语句 。 这 就 像 一 个 过 于 礼貌 的 人 站 在 餐厅 门 
口 ， 只 要 还 有 其 他 顾客 在 等 待 就 一 直 不 进去 ， 很 明显 这 容易 把 自己 
给 饿 坏 。LOW_PRIORITY 提 示 在 SELECT 、1NSERT、UPDATE 和 DELETE 
语句 中 都 可 以 使 用 。 











这 两 个 提示 只 对 使 用 表 锁 的 存储 引擎 有 效 ， 干 万 不 要 在 
InnoDB 或 者 其 他 有 细 粒 上 度 锁 机 制 和 并 发 控制 的 引擎 中 使 用 。 即 使 
征 在 MYISAM 中 使 用 也 要 注意 ， 因 为 这 两 个 提示 会 导致 并 发 插入 被 
共用 ， 可 能 会 严重 降低 性 能 。 





HIGH_PRIORITY 和 LOW_PRIORITY 经 常 让 人 感到 困惑 。 这 两 个 提 
示 并 不 会 获取 更 多 资源 让 得 询 “积极 ”工作 ， 也 不 会 少 获取 资源 让 得 
询 “ 消 极 * 工 作 。 它 们 只 是 简单 地 控制 了 MySQL 访 问 某 个 数据 表 的 队 
列 顺序 。 


DELAYED 


这 个 提示 对 1NSERT 和 REPLACE 有 效 。MySQL 会 将 使 用 该 提示 的 
语句 立即 返回 给 客户 端 ， 并 将 插入 的 行 数 据 放 入 到 缓冲 区 ， 然 后 在 
表 空 闲 时 批量 将 数据 写 入 。 日 志 系 统 使 用 这 样 的 提示 非常 有 效 ， 或 
者 是 其 他 需要 写 入 大 量 数据 但 是 客户 端 却 不 需要 等 待 单条 语句 完成 
IO 的 应 用 。 这 个 用 法 有 一 些 限 制 : 并 不 是 所 有 的 存储 引擎 都 文 持 
这 样 的 做 法 ; 并且 该 提示 会 导致 图 数 LAST_1INSERT_1D 0 无 法 正常 工 
1 








STRAIGHT_JOIN 


这 个 提示 可 以 放置 在 SELECT 语句 的 SELECT 关键 字 之 后 ， 也 可 以 
放置 在 任何 两 个 关联 表 的 名 字 之 间 。 第 一 个 用 法 是 让 查询 中 所 有 的 
表 按 照 在 语句 中 出 现 的 顺序 进行 关联 。 第 二 个 用 法 则 是 固定 其 前 后 
两 个 表 的 关联 顺序 。 














当 MySQL 没 能 选择 正确 的 关联 顺序 的 时 候 ， 或 者 由 于 可 能 的 





顺序 太 多 导致 MySQL 无 法 评估 所 有 的 关联 顺序 的 时 

候 ，STRAIGHT_JOIN 都 会 很 有 用 。 在 后 面 这 种 情况 ，MySQL 可 能 会 
花费 大 量 时 间 在 “statistics” 状 态 ， 加 上 这 个 提示 则 会 大 大 减少 优化 
器 的 搜索 空间 。 


可 以 先 使 用 EXPLAIN 语 句 来 查看 优化 器 选择 的 关联 顺序 ， 然 后 
使 用 该 提示 来 重 写 查 询 ， 再 看 看 它 的 关联 顺序 。 当 你 确定 无 论 怎样 
的 where 条 件 ， 茶 个 固定 的 关联 顺序 始终 是 最 佳 的 时 候 ， 使 用 这 个 
提示 可 以 大 大 提高 优化 圳 的 效率 。 但 是 在 升级 MySQL 版 本 的 时 
候 ， 需 要 重新 审视 下 这 类 但 询 ， 某 些 新 的 优化 特性 可 能 会 因为 该 提 
示 而 失效 。 





SQL_SMALL_RESULT 和 SQL_BIG_RESULT 


这 两 个 提示 只 对 SELECT 语 名 有效。 它们 告诉 优化 器 对 GROUP BY 
或 者 DISTINCT 碍 询 如 何 使 用 临时 表 及 排序 。SQL_SMALL_RESULT 告 诉 
优化 器 结果 集会 很 小 ， 可 以 将 结果 集 放 在 内 存 中 的 索引 临时 表 ， 以 
避免 排序 操作 。 如 果 是 SQL_B1G_RESULT， 则 告诉 优化 器 结果 集 可 能 
会 非常 大 ， 建 议 使 用 磁盘 临时 表 做 排序 操作 。 


SQL_BUFFER_RESULT 


这 个 提示 告诉 优化 器 将 查询 结 琳 放 入 到 一 个 临时 表 ， 然 后 尽 可 
能 快 地 释放 表 锁 。 这 和 前 面 提 到 的 由 客户 端 缓 仓 结 末 不 同 。 当 你 没 
法 使 用 客户 器 缓存 的 时 候 ， 使 用 服务 器 端的 缓存 通 癌 很 有 效 。 带 来 
的 好 处 是 无 须 在 客户 端 上 消耗 太 多 的 内 存 ， 还 可 以 尽 可 能 快 地 释放 
对 应 的 表 锁 。 代 价 是 ， 服 务 需 端 将 需要 更 多 的 内 存 。 











SQL_CACHE 和 SQL_N0O_CACHE 





这 个 提示 告诉 MySQL 这 个 结果 集 是 否 应 该 缓存 在 查询 缓存 
中 ， 下 一 章 我 们 将 详细 介绍 如 何 使 用 。 


SQL_CALC_FOUND_ROWS 


严格 来 说 ， 这 并 不 是 一 个 优化 器 提示 。 它 不 会 告诉 优化 器 任何 
关于 执行 计划 的 东西 。 它 会 让 MySQL 返 回 的 结果 集 包 含 更 多 的 信 
上 息 。 和 查询 中 加 上 该 提示 MySQL 会 计算 除去 LIMIT 子 句 后 这 个 查询 要 
返回 的 结果 集 的 总 数 ， 而 实际 上 只 返回 LIMIT 要 求 的 结果 集 。 可 以 
通过 函数 FOUND_ROW 0 获得 这 个 值 。 参阅 后 面 
的 “SQL_CALC_FOUND_ROWS 优 化 ”部 分 ， 了 解 下 为 什么 不 应 该 使 用 该 
提示 。) 





FOR UPDATE 和 LOCK IN SHARE MODE 


这 也 不 是 真正 的 优化 器 提示 。 这 两 个 提示 主要 控制 SELECT 语句 
的 锁 机 制 ， 但 只 对 实现 了 行 级 锁 的 存储 引擎 有 效 。 使 用 该 提示 会 对 
符合 查询 条 件 的 数据 行 加 锁 。 对 于 INSERT. . . SELECT 语句 是 不 需要 
这 两 个 提示 的 ， 因 为 对 于 MySQL 5.0 和 更 新 版 本 会 默认 给 这 些 记 录 
加 上 读 锁 。【〔 可 以 禁用 该 默认 行为 ， 但 不 是 个 好 主意 ， 在 后 面 关于 
复制 和 备份 的 章节 中 将 解释 这 一 点 。) 





唯一 内 置 的 文 持 这 两 个 提示 的 引擎 就 是 mnoDB。 必 外 需要 记 
住 的 是 ， 这 两 个 提示 会 让 茶 些 优化 无 法 正常 使 用 ， 例 如 索引 履 盖 扫 
描 。InnoDB 不 能 在 不 访问 主键 的 情况 下 排他 地 锁定 行 ， 因 为 行 的 
版 本 信息 保存 在 主键 中 。 





REE ce > CPAP SEAN BU, RAE yt BRA as YB 
用 问题 ， 后 面 章 市 我 们 将 讨论 这 点 。 应 该 尽 可 能 地 避免 使 用 这 两 个 
提示 ， 通 第 都 有 其 他 更 好 的 方式 可 以 实现 同样 的 目的 。 


USE INDEX, IGNORE INDEX 和 FORCE INDEX 


A: 











这 几 个 提示 会 告诉 优化 器 使 用 或 者 不 使 用 哪些 索引 来 查询 记录 
例如， 在 决定 关联 顺序 的 时 候 使 用 哪个 索引 ) 。 在 MySQL 5.0 和 
更 早 的 版 本 ， 这 些 提 示 并 不 会 影响 到 优化 器 选择 哪个 索引 进行 排序 
和 分 组 ， 在 MyQL 5.1 和 之 后 的 版 本 可 以 通过 新 增 选项 FOR ORDER 
BY 和 FOR GROUP BY 来 指定 是 否 对 排序 和 分 组 有 效 。 











FORCE INDEX 和 USE INDEX 基 本 相同 ， 除 了 一 点 : FORCE INDEX 
会 告诉 优化 器 全 表 扫 描 的 成 本 会 远 远 高 于 索引 扫描 ， 哪 怕 实 际 上 该 
索引 用 处 不 大 。 当 发 现 优化 器 选 择 了 错误 的 索引 ， 或 者 因为 某 些 原 
因 《〈“ 比 如 在 不 使 用 ORDER BY 的 时 候 希 望 结果 有 序 ) 要 使 用 另 一 个 索 
引 时 ， 可 以 使 用 该 提示 。 在 前 面 关 于 如 何 使 用 LIMIT 高 效 地 获取 最 
小 值 的 案例 中 ， 已 经 演示 过 这 种 用 法 。 











在 MySQL 5.0 和 更 新 版 本 中 ， 新 增 了 一 些 参数 用 来 控制 优化 器 的 行 


optimizer_search_depth 


这 个 参数 控制 优化 器 在 穷 举 执行 计划 时 的 限度 。 如 果 碍 询 长 时 
间 处 于 “Statistics” 状 态 ， 那 么 可 以 考虑 调 低 此 参数 。 


optimizer_prune_level 
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optimizer_switch 


这 个 变量 包含 了 一 些 开启 /关闭 优化 器 特性 的 标志 位 。 例 如 在 
MySQL 5.1 中 可 以 通过 这 个 参数 来 控制 禁用 索引 合并 的 特性 。 


前 两 个 参数 是 用 来 控制 优化 器 可 以 走 的 一 些 “ 捷 径 ”。 这 些 捷 径 可 以 
让 优化 器 在 处 理 非 常 复 杂 的 SQL 语句 时 ， 仍 然 可 以 很 高 效 ， 但 这 也 可 能 
让 优化 器 错过 一 些 真正 最 优 的 执行 计划 。 所 以 应 该 根据 实际 需要 来 修改 
这 些 参数 。 














MySQL 升 级 后 的 验证 


在 优化 器 面前 要 一 些 “ 小 聪明 ”是 不 好 的 。 这 样 做 收效 其 小 ， 但 
是 却 给 维护 带 来 了 很 多 额外 的 工作 量 。 在 MySQL 版 本 升级 的 时 候 ， 这 
个 问题 就 很 突出 了 ， 你 设置 的 “优化 器 提示 ”很 可 能 会 让 新 版 的 优化 
策略 失效 。 


MySQL 5. 0 版 本 引入 了 大 量 优 化 策略 ， 在 还 没有 正式 发 布 的 5.6 版 
本 中 ， 优 化 器 的 改进 也 是 近 些 年 来 最 大 的 一 次 改进 。 如 果 要 更 新 到 这 
些 版 本 ， 当 然 希望 能 够 从 这 些 改进 中 受益 。 


新 版 MySQL 基 本 上 在 各 个 方面 都 有 非常 大 的 改进 ，5. 5 和 5. 6 这 两 
个 版 本 尤为 突出 。 升 级 操作 一 般 来 说 都 很 顺利 ， 但 仍然 建议 仔细 检查 
各 个 细节 ， 以 防止 一 些 边 界 情况 影响 你 的 应 用 程序 。 不 过 还 好 ， 要 避 
免 这 些 ， 你 不 需要 付出 太 多 的 精力 。 使 用 Percona ”Toolkit 中 的 pt- 


Upgrade 工具， 就 可 以 检查 在 新 版 本 中 运行 的 SQL 是 否 与 老 版 本 一 样 ， 
返回 相同 的 结果 。 





6.7 ”优化 特定 闫 型 的 查询 


这 一 市 ， 我 们 将 介绍 如 何 优 化 特定 类 型 的 查询 。 在 本 书 的 其 他 部 分 
都 会 分 散 介绍 这 些 优化 技巧 ， 不 过 这 里 将 会 汇总 一 下 ， 以 便 参 考 和 碍 
阅 。 

本 节 介 绍 的 多 数 优 化 技 巧 都 证 和 特定 的 版 本 有 关 的 ， 所 以 对 于 未 来 


MySQL 的 厂 本 未 必 适 用 。 军 无 疑问 ， 东 一 天 优化 器 目 己 也 会 实现 这 里 
列 出 的 部 分 或 者 全 部 优化 技巧 。 





6.7.1 ”优化 COUNTO 查 询 


COUNT () 聚合 函数 ， 以 及 如 何 优化 使 用 了 该 函数 的 查询 ， 很 可 能 是 
MySQL 中 最 容易 被 误解 的 前 10 个 话题 之 一 。 在 网 上 随便 搜索 一 下 就 能 
看 到 很 多 错误 的 理解 ， 可 能 比 我 们 想象 的 多 得 多 。 


在 做 优化 之 前 ， 先 来 看 看 COUNTO 函 数 真 正 的 作用 是 什么 。 
COUNT0O 的 作用 


COUNT () 是 一 个 特殊 的 函数 ， 有 两 种 非常 不 同 的 作用 : 它 可 以 统计 
某 个 列 值 的 数量 ， 也 可 以 统计 行 数 。 在 统计 列 值 时 要 求 列 值 是 非 空 的 
(不 统计 NULL) 。 如 果 在 COUNT 0 的 括号 中 指定 了 列 或 者 列 的 表达 式 ， 
则 统计 的 就 是 这 个 表达 式 有 值 的 结果 数 和 。 因 为 很 多 人 对 NULL 理 解 有 
问题 ， 所 以 这 里 很 容易 产生 误解 。 如 果 想 了 解 更 多 关于 SQL 语句 中 NULL 





的 含义 ， 建 议 阅 读 一 些 关 于 SQL 语句 基础 的 书籍 。《〈 关 于 这 个 话题 ， 互 
联网 上 的 一 些 信息 是 不 够 精确 的 。) 


COUNT () 的 另 一 个 作用 是 统计 结果 集 的 行 数 。 当 MySQL 确 认 括 号 内 
的 表达 式 值 不 可 能 为 空 时 ， 实 际 上 就 是 在 统计 行 数 。 最 简单 的 就 是 当 我 
们 使 用 COUNT (*) 的 时 候 ， 这 种 情况 下 通配符 * 并 不 会 像 我 们 猜想 的 那 
样 扩展 成 所 有 的 列 ， 实 际 上 ， 它 会 忽略 所 有 的 列 而 直接 统计 所 有 的 行 
E 





我 们 发 现 一 个 最 常见 的 错误 就 是 ， 在 括号 内 指定 了 一 个 列 却 希望 统 
计 结 果 集 的 行 数 。 如 果 希 望 知道 的 是 结果 集 的 行 数 ， 最 好 使 用 
COUNT (*) ， 这 样 写意 义 清晰 ， 性 能 也 会 很 好 。 


关于 MyISAM 的 神话 


一 个 容易 产生 的 误解 就 是 :MyISAM 的 COUNT () 函数 总 是 非常 快 ， 
不 过 这 是 有 前 提 条 件 的 ， 即 只 有 没有 任何 WHERE 条 件 的 COUNT (*) 才 非 
常 快 ， 因 为 此 时 无 须 实际 地 去 计算 表 的 行 数 。MySQL 可 以 利用 存储 引 
擎 的 特性 直接 获得 这 个 值 。 如 果 MySQL 知 道 某 列 col 不 可 能 为 NULL 值 ， 
那么 MySQL 内 部 会 将 COUNT (col) 表达 式 优化 为 COUNT (#) 。 











当 统计 带 WHERE 子 句 的 结果 集 行 数 ， 可 以 是 统计 某 个 列 值 的 数量 
时 ，MyISAM 的 COUNT () 和 其 他 存储 引擎 没有 任何 不 同 ， 就 不 再 有 神话 
般 的 速度 了 。 所 以 在 MyISAM 引 擎 表 上 执行 COUNT () 有 时 候 比 别 的 引擎 
快 ， 有 时 候 比 别 的 引擎 慢 ， 这 受 很 多 因素 影响 ， 要 视 具 体 情况 而 定 。 





简单 的 优化 


有 时 候 可 以 使 用 MyISAM 在 COUNT (*) 全 表 非 常 快 的 这 个 特性 ， 来 
加 速 一 些 特 定 条 件 的 COUNT () 的 查询 。 在 下 面 的 例子 中 ， 我 们 使 用 标准 
数据 库 wor1d 来 看 看 如 何 快速 得 找到 所 有 1D 大 于 5 的 城市 。 可 以 像 下 面 这 
样 来 写 这 个 查询 : 


mysql> SELECT COUNT (*) FROM world.City WHERE ID>5; 


通过 SHOW STATUS 的 结果 可 以 看 到 该 查询 需要 扫描 4097 行 数据 。 如 
果 将 条 件 反 转 一 下 ， 先 查找 ID 小 于 等 于 5 的 城市 数 ， 然 后 用 总 城市 数 一 
减 束 能 得 到 同样 的 结果 ， 却 可 以 将 扫 揪 的 行 数 减 少 到 5 行 以 内 : 





mysql> SELECT (SELECT COUNT(*) FROM world.City) - COUNT(*) 
-> FROM world.City WHERE ID <= 5; 


这 样 做 可 以 大 大 减少 需要 扫描 的 行 数 ， 是 因为 在 查询 优化 阶段 会 将 
其 中 的 子 碍 询 直 接 当 作 一 个 单数 来 处 理 ， 我 们 可 以 通过 EXPLAIN 来 验 
证 这 反 : 





+----+------------- +------- +.,.+------ +------------------------------ 十 
| id | select_type | table |...| rows | Extra | 
+----+------------- +------- +.,.+------ +------------------------------ 十 
| 1 | PRIMARY | Gaty [cw] 6 | Using where; Using index | 
| 2 | SUBQUERY | NULL |...| NULL | Select tables optimized away | 
+----+------------- +------- .,.+------ +------------------------------ 十 


在 邮件 组 和 IRC 聊 天 频道 中 ， 通 常会 看 到 这 样 的 问题 ， 如 何在 同一 
个 查询 中 统计 同一 个 列 的 不 同 值 的 数量 ， 以 减少 查询 的 语句 量 。 例 如 ， 
假设 可 能 需要 通过 一 个 查询 返回 各 种 不 同 闫 色 的 商品 数量 ， 此 时 不 能 使 
用 0R 语 句 (比如 SELECT COUNT (color='blue' OR color='red') FROM 
items; ) ， 因 为 这 样 做 就 无 法 区 分 不 同 颜色 的 商品 数量 ， 也 不 能 
在 WHERE 条 件 中 指定 颜色 〈 比 如 SELECT COUNT (*) FROM items WHERE 
color='blue' AND color='RED';) ， 因 为 颜色 的 条 件 是 互 斥 的 。 下 面 








的 查询 可 以 在 一 定 程度 上 解决 这 个 问题 2。 


mysql> SELECT SUM(IF(color = 'blue', 1, 0)) AS blue, SUM(IF(co 


-> AS red FROM items; 


也 可 以 使 用 COUNT () 而 不 是 SUM 0 实现 同样 的 目的 ， 只 需要 将 满足 条 
件 设置 为 真 ， 不 满足 条 件 设置 为 NULL 即 可 : 





mysql> SELECT COUNT(color = 'blue' OR NULL) AS blue, COUNT(co 


-> AS red FROM items; 


使 用 近似 值 


有 时 候 茶 些 业务 场景 并 不 要 求 完 全 精确 的 COUNT 值 ， 此 时 可 以 用 近 
似 值 来 代替 。EXPLAIN 出 来 的 优化 器 估算 的 行 数 就 是 一 个 不 错 的 近似 
值 ， 执 行 EXPLAIN 并 不 需要 真正 地 去 执行 查询 ， 所 以 成 本 很 低 。 


很 多 时 候 ， 计 算 精确 值 的 成 本 非常 高， 而 计算 近似 值 则 非常 简单 。 
曾经 有 一 个 客户 希望 我 们 统计 他 的 网 站 的 当前 活跃 用 户 数 是 多 少 ， 这 个 
活跃 用 户 数 保存 在 缓存 中 ， 过 期 时 间 为 30 分 钟 ， 所 以 每 隔 30 分 钟 需要 重 
新 计算 并 放 入 缓存 。 因 此 这 个 活跃 用 户 数 本 身 就 不 是 精确 值 ， 所 以 使 用 
近似 值 代 丛 是 可 以 接受 的 。 男 外 ， 如 果 要 精确 统计 在 线 人 数 ， 通 
常 WHERE 条 件 会 很 复杂 ， 一 方面 裔 要 掏 除 当前 非 活跃 用户 ， 为 一 方面 还 
要 剔除 系统 中 茶 坚 特定 1D 的 “默认 "用户 ， 去 邱 这 些 约束 条 件 对 总 数 的 影 
啊 很 小 ， 但 却 可 能 很 好 地 提升 该 查询 的 性 能 。 更 进一步 地 优化 则 可 以 答 
试 删除 DISTINCT 这 样 的 约束 来 避免 文件 排序 。 这 样 重 写 过 的 得 询 要 比 原 
来 的 精确 统计 的 碍 询 快 很 多 ， 而 返回 的 结果 则 几乎 相同 。 

















更 复杂 的 优化 





通常 来 说 ，COUNT () 都 需要 扫 摘 大 量 的 行 〈 意 味 着 要 访问 大 量 数 
据 ) 才能 获得 精确 的 结果 ， 因 此 是 很 难 优化 的 。 除 了 前 面 的 方法 ， 在 
MySQL 层 面 还 能 做 的 就 只 有 索引 履 盖 扫 朱 了 。 如 果 这 还 不 够 ， 融 需要 
考虑 修改 应 用 的 架构 ， 可 以 增加 汇总 表 〈 第 4 章 已 经 介绍 过 ) ， 或 者 增 
加 类 似 Memcached 这 样 的 外 部 绥 存 系统 。 可 能 很 快 你 就 会 发 现 陷 入 到 一 
个 熟悉 的 困境 , “快速 ， 精 确 和 实现 简单 ”三 者 永远 只 能 满足 其 二 ， 必 
须 舍 掉 其 中 一 个 。 


6.7.2 RURKA M 


这 个 话题 基本 上 整 本 书 都 在 讨论 ， 这 里 需要 特别 提 到 的 是 : 











确保 0N 或 者 US1NG 子 句 中 的 列 上 有 索引 。 在 创建 和 索 引 的 时 候 残 要 考 

虑 到 关联 的 顺序 。 当 表 A 和 表 B 用 列 c 关 联 的 时 候 ， 如 果 优 化 器 的 关 

联 顺序 是 8、A， 那 么 就 不 需要 在 B 表 的 对 应 列 上 建 上 索引 。 没 有 用 
到 的 索引 只 会 带 来 额外 的 负担 。 一 般 来 说 ， 除 非 有 其 他 理由 ， 否 则 
只 需要 在 关联 顺序 中 的 第 二 个 表 的 相应 列 上 创建 索引 。 

确保 任何 的 GROUP “BY 和 0RDER ”BY 中 的 表达 式 只 涉及 到 一 个 表 中 的 
列 ， 这 样 MySQL 才 有 可 能 使 用 索引 来 优化 这 个 过 程 。 

当 升 级 MySQL 的 时 候 需 要 注意 : 关联 语法 、 运 算 符 优先 级 等 其 他 

可 能 会 发 生变 化 的 地 方 。 因 为 以 前 是 普通 关联 的 地 方 可 能 会 变 成 笛 
卡 儿 积 ， 不 同类 型 的 关联 可 能 会 生成 不 同 的 结果 等 。 








6.7.3 ”优化 子 人 查询 


关于 子 人 查询 优化 我 们 给 出 的 最 重要 的 优化 建议 就 是 尽 可 能 使 用 关联 
查询 代 丛 ， 人 至 少 当 前 的 MySQL 版 本 需要 这 样 。 本 章 的 前 面 章节 已 经 详 
细 介 绍 了 这 扣 。“ 尽 可 能 使 用 关联 ”并 不 是 绝对 的 ， 如 果 使 用 的 是 MySQL 
5.6 或 更 新 的 版 本 或 者 MariaDB， 那 么 就 可 以 直接 忽略 关于 子 碍 询 的 这 些 
建议 了 。 








6.7.4 优化 GROUP BY 和 DISTINCT 








在 很 多 场景 下 ，MySQL 都 使 用 同样 的 办 法 优化 这 两 种 查询， 事实 
上 ，MySQL 优 化 幽会 在 内 部 处 理 的 时 候 相 互 转化 这 两 类 查询 。 它 们 痢 
可 以 使 用 索引 来 优化 ， 这 也 是 最 有 效 的 优化 办 法 。 





在 MySQL 中 ， 当 无 法 使 用 索引 的 时 候 ，GROUP ”BY 使 用 两 种 策略 来 
完成 : 使 用 临时 表 或 者 文件 排序 来 做 分 组 。 对 于 任何 查询 语句 ， 这 两 种 
策略 的 性 能 都 有 可 以 提升 的 地 方 。 可 以 通过 使 用 提示 SQL_B1G_RESULT 和 
SQL_SMALL_RESULT 来 让 优化 器 按照 你 希望 的 方式 运行 。 在 本 章 的 前 面 章 
节 我 们 已 经 讨论 了 这 点 。 





如 果 需 要 对 关联 查询 做 分 组 (GROUP BY) ， 并 且 是 按照 查找 表 中 的 
茶 个 列 进行 分 组 ， 那 么 通常 采用 查找 表 的 标识 列 分 组 的 效率 会 比 其 他 列 
更 高 。 例 如 下 面 的 查询 效率 不 会 很 好 : 











mysql> SELECT actor.first_name, actor.last_name, COUNT(*) 


-> FROM sakila.film_actor 


-> INNER JOIN sakila.actor USING(actor_id) 


-> GROUP BY actor.first_name, actor.last_name; 


如 果 碍 询 按照 下 面 的 写法 效率 则 会 更 高 : 


mysql> SELECT actor.first_name, actor.last_name, COUNT(*) 
-> FROM sakila.film_actor 
-> INNER JOIN sakila.actor USING(actor_id) 


-> GROUP BY film_actor.actor_id; 


使 用 actor. actor_id 列 分 组 的 效率 甚至 会 比 使 
用 film_actor. actor_id 更 好 。 这 一 点 通过 简单 的 测试 即 可 验证 。 


这 个 查询 利用 了 演员 的 姓名 和 1D 直 接 相 关 的 特点 ， 因 此 改写 后 的 结 
果 不 受 影响 ， 但 显然 不 是 所 有 的 关联 语句 的 分 组 查询 都 可 以 改写 成 
在 SELECT 中 直接 使 用 非 分 组 列 的 形式 的 。 甚 至 可 能 会 在 服务 器 上 设 
置 SQL_MODE 来 禁止 这 样 的 写法 。 如 果 是 这 样 ， 也 可 以 通过 MIN 0 或 
者 MAX () 函数 来 绕 过 这 种 限制 ， 但 一 定 要 清楚 ，SELECT 后 面 出 现 的 非 分 
组 列 一 定 是 直接 依赖 分 组 列 ， 并 且 在 每 个 组 内 的 值 是 唯一 的 ， 或 者 是 业 
务 上 根本 不 在 乎 这 个 值 具体 是 什么 : 


mysql> SELECT MIN(actor.first_name), MAX(actor.last_name), .. 


较真 的 人 可 能 会 说 这 样 写 的 分 组 查询 是 有 问题 的 ， 确 实 如 此 。 从 
MIN () 或 者 MAX () 函数 的 用 法 就 可 以 看 出 这 个 碍 询 是 有 问题 的 。 但 知 更 在 
乎 的 是 MYSQL 运行 得 询 的 效率 时 这 样 做 也 无 可 厚 非 。 如 果实 在 较真 的 
话 也 可 以 改写 成 下 面 的 形式 : 


mysql> SELECT actor.first name, actor.last_name, c.cnt 


-> FROM sakila.film_actor 


-> INNER JOIN ( 


-> SELECT actor_id, COUNT(*) AS cnt 
-> FROM sakila.film_actor 
-> GROUP BY actor_id 


-> ) AS c USING(actor_id) ; 


这 样 写 更 满足 关系 理论 ， 但 成 本 有 点 高 ， 因 为 子 碍 询 需 要 创建 和 十 
充 临时 表 ， 而 子 查 询 中 创建 的 临时 表 是 没有 任何 索引 的 久 。 











在 分 组 查询 的 SELECT 中 直接 使 用 非 分 组 列 通 党 都 不 是 什么 好 主 
意 ， 因 为 这 样 的 结果 通常 是 不 定 的 ， 当 索引 改变 ， 或 者 优化 器 选择 不 同 
的 优化 策略 时 都 可 能 导致 结果 不 一 样 。 我 们 伞 到 的 大 多 数 这 种 查询 最 后 
都 导致 了 故障 (因为 MySQL 不 会 对 这 类 查询 返回 错误 ) ， 而 且 这 种 写 
法 大 部 分 是 由 于 偷懒 而 不 是 为 优化 而 故意 这 么 设计 的 。 建 议 始终 使 用 含 
义 明 确 的 语法 。 事 实 上 ， 我 们 建议 将 MySQL 的 SQL_MODE 设 置 为 包 
含 ONLY_FULL_GROUP_BY， 这 时 MySQL 会 对 这 类 查询 直接 返回 一 个 错 
误 ， 提 醒 你 需要 重 写 这 个 查询 。 





如 果 没 有 通过 ORDER ”BY 子 句 显 式 地 指定 排序 列 ， 当 查询 使 用 GROUP 
BY 子 句 的 时 候 ， 结 果 集 会 自动 按照 分 组 的 字段 进行 排序 。 如 果 不 关 心 结 
果 集 的 顺序 ， 而 这 种 默认 排序 又 导致 了 需要 文件 排序 ， 则 可 以 使 
用 ORDER BY NULL， 让 MySQL 不 再 进行 文件 排序 。 也 可 以 在 GROUP BY 子 
句 中 直接 使 用 DESC 或 者 ASC 关 键 字 ， 使 分 组 的 结果 集 按 需要 的 方向 排 
FF. 








优化 GROUP BY WITH ROLLUP 





分 组 查询 的 一 个 变种 就 是 要 求 MySQL 对 返回 的 分 组 结果 再 做 一 次 
超级 聚合 。 可 以 使 用 WITH ROLLUP 子 句 来 实现 这 种 逻辑 ， 但 可 能 会 不 够 
优化 。 可 以 通过 EXPLAIN 来 观察 其 执行 计划 ， 特 别 要 注意 分 组 是 否 是 通 
过 文件 排序 或 者 临时 表 实 现 的。 然后 再 去 挥 WITH ”ROLLUP 子 句 看 执行 计 
划 是 人 否 相同 。 也 可 以 通过 本 节 前 面 介 绍 的 优化 需 提 示 来 固定 执行 计划 。 


很 多 时 候 ， 如 果 可 以 ， 在 应 用 程序 中 做 超级 聚合 是 更 好 的 ， 虽 然 这 
要 返回 给 客户 端 更 多 的 结果 。 也 可 以 在 FROM 子 句 中 髓 套 使 用 子 查 询 ， 
或 者 是 通过 一 个 临时 表 存 放 中 间 数 据 ， 然 后 和 临时 表 执 行 UN10N 来 得 到 
最 终结 果 。 


最 好 的 办 法 是 尽 可 能 的 将 WITH ”ROLLUP 功 能 转移 到 应 用 程序 中 处 
Hi 


6.7.55 LIMITA H 





在 系统 中 需要 进行 分 页 操作 的 时 候 ， 我 们 通常 会 使 用 LIMIT 加 上 偏 
移 量 的 办 法 实现 ， 同 时 加 上 合适 的 ORDER BY 子 句 。 如 果 有 对 应 的 索引 ， 
通常 效率 会 不 错 ， 否 则 ，MySQL 需 要 做 大 量 的 文件 排序 操作 。 








一 个 非常 常见 又 令 人 头疼 的 问题 就 是 ， 在 偏 移 量 非常 大 的 时 
候 &2， 例 如 可 能 是 LIMIT 1000, 20 这 样 的 查询 ， 这 时 MySQL 需 要 查询 10 
020 条 记录 然后 只 返回 最 后 20 条 ， 前 面 10000 条 记录 都 将 被 抛弃 ， 这 样 的 
代价 非常 高 。 如 果 所 有 的 页 面 被 访问 的 频率 都 相同 ， 那 么 这 样 的 查询 平 
均 需 要 访问 半 个 表 的 数据 。 要 优化 这 种 查询 ， 要 么 是 在 页 面 中 限制 分 页 
的 数量 ， 要 么 是 优化 大 偏 移 量 的 性 能 。 
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扫描 ， 而 不 是 查询 所 有 的 列 。 然 后 根据 需要 做 一 次 关联 操作 再 返回 所 需 
的 列 。 对 于 偶 移 量 很 大 的 时 候 ， 这 样 做 的 效率 会 提升 非常 大 。 考 夸 下 面 
的 查询 : 








mysql> SELECT film id, description FROM sakila.film ORDER BY 





如 果 这 个 表 非 常 大， 那么 这 个 碍 询 最 好 改写 成 下 面 的 样子 : 


mysql> SELECT film.film_id, film.description 
-> FROM sakila. film 
-> INNER JOIN ( 
-> SELECT film_id FROM sakila. film 
-> ORDER BY title LIMIT 50, 5 
-> ) AS lim USING(film_id); 





这 里 的 “延迟 关联 "将 大 大 提升 查询 效率 ， 它 让 MySQL 扫 描 尽 可 能 少 
的 页 面 ， 获 取 需 要 访问 的 记录 后 再 根据 关联 列 回 原 表 查询 需要 的 所 有 
列 。 这 个 技术 也 可 以 用 于 优化 关联 查询 中 的 LIMIT 子 句 。 








有 时 候 也 可 以 将 LIMIT 查 询 转 换 为 已 知 位 置 的 查询 ， 让 MySQL 通 过 
范围 扫描 获得 到 对 应 的 结果 。 例 如 ， 如 果 在 一 个 位 置 列 上 有 索引 ， 并 且 
预先 计算 出 了 边界 值 ， 上 面 的 查询 就 可 以 改写 为 : 





mysql> SELECT film id, description FROM sakila. film 


-> WHERE position BETWEEN 50 AND 54 ORDER BY position; 





对 数据 进行 排名 的 问题 也 与 此 类 似 ， 但 往往 还 会 同时 和 GROUP BY 泥 
合 使 用 。 在 这 种 情况 下 通常 都 需要 预先 计算 并 存储 排名 信息 。 





LIMIT 和 0FFSET 的 问题 ， 其 实 是 0FFSET 的 问题 ， 它 会 导致 MySQL 扫 
描 大 量 不 需要 的 行 然 后 再 抛弃 掉 。 如 果 可 以 使 用 书签 记录 上 次 取 数 据 的 
位 置 ， 那 么 下 次 就 可 以 直接 从 该 书签 记录 的 位 置 开 始 扫描 ， 这 样 就 可 以 
避免 使 用 OFFSET。 例 如 ， 若 需要 按照 租借 记录 做 翻 页 ， 那 么 可 以 根据 最 
新 一 条 租借 记录 向 后 追 吝 ， 这 种 做 法 可 行 是 因为 租借 记录 的 主键 是 单调 
增长 的 。 首 先 使 用 下 面 的 查询 获得 第 一 组 结果 : 














mysql> SELECT * FROM sakila.rental 


-> ORDER BY rental_id DESC LIMIT 20; 


假设 上 面 的 查询 返回 的 是 主键 为 16049 到 16030 的 租借 记录 ， 那 么 下 
一 页 查询 就 可 以 从 16030 这 个 点 开始 : 


mysql> SELECT * FROM sakila.rental 
-> WHERE rental_id < 16030 


-> ORDER BY rental_id DESC LIMIT 20; 
该 技术 的 好 处 是 无 论 翻 页 到 多 么 后 面 ， 其 性 能 都 会 很 好 。 


其 他 优化 办 法 还 包括 使 用 预先 计算 的 汇总 表 ， 或 者 关联 到 一 个 隐 余 
表 ， 克 余 表 只 包含 主键 列 和 需要 做 排序 的 数据 列 。 还 可 以 使 用 Sphinx 优 
化 一 些 搜索 操作 ， 参 考 附录 F 可 以 获得 更 多 相关 信息 。 


6.7.6 ”优化 
SQL CALC FOUND ROWS 











分 页 的 时 候 ， 男 一 个 常用 的 技巧 是 在 LIMIT 语 句 中 加 


上 SQL_CALC_FOUND_ROWS 提 示 Chint) ， 这 样 束 可 以 获得 去 挥 LIMIT 以 后 
满足 条 件 的 行 数 ， 因 此 可 以 作为 分 页 的 总 数 。 看 起 来 ，MySQL 做 了 一 
些 非常 < 高 深 ? 的 优化 ， 像 是 通过 某 种 方法 预测 了 总 行 数 。 但 实际 上 ， 
MySQL 只 有 在 扫描 了 所 有 满足 条 件 的 行 以 后 ， 才 会 知道 行 数 ， 所 以 加 
上 这 个 提示 以 后 ， 不 管 是 否 需要 ，MySQL 都 会 扫描 所 有 满足 条 件 的 
行 ， 然 后 再 抛弃 掉 不 需要 的 行 ， 而 不 是 在 满足 LIMIT 的 行 数 后 就 终止 扫 
描 。 所 以 该 提示 的 代价 可 能 非常 高 。 








一 个 更 好 的 设计 是 将 具体 的 页 数 换 成 * 下 一 页 ”按钮 ， 假 设 每 页 显示 
20 条 记录 ， 那 么 我 们 每 次 查询 时 都 是 用 LIMIT 返 回 21 条 记录 并 只 显示 20 
和 条， 如果 第 21 条 存在 ， 那 么 我 们 就 显示 “下 一 页 ”按钮 ， 否 则 就 说 明 没有 
更 多 的 数据 ， 也 就 无 须 显示 “下 一 页 ”按钮 了 。 











另 一 种 做 法 是 先 获取 并 缓存 较 多 的 数据 一 一例 如， 缓存 1000 条 一 -一 
然后 每 次 分 页 都 从 这 个 缓存 中 获取 。 这 样 做 可 以 让 应 用 程序 根据 结果 集 
的 大 小 采取 不 同 的 策略 ， 如 果 结 果 集 少 于 1000， 束 可 以 在 页 面 上 显示 所 
有 的 分 页 链接 ， 因 为 数据 都 在 缓存 中 ， 所 以 这 样 做 性 能 不 会 有 问题 。 如 
果 结 果 集 大 于 1000， 则 可 以 在 页 面 上 设计 一 个 额外 的 “找到 的 结果 多 于 
1000 条 ”之 类 的 按钮 。 这 两 种 集 略 都 比 每 次 生成 全 部 结果 集 再 抛弃 挥 不 
需要 的 数据 的 效率 要 高 很 多 。 








有 时 候 也 可 以 考虑 使 用 EXPLAIN 的 结果 中 的 rows 列 的 值 来 作为 结 
集 总 数 的 近似 值 〈《 实 际 上 Google 的 搜索 结果 总 数 也 是 个 近似 值 ) 。 当 需 
要 精确 结果 的 时 候 ， 再 单独 使 用 COUNT (*) 来 满足 需求 ， 这 时 如 果 能 够 
使 用 索引 履 盖 扫描 则 通常 也 会 比 SQL_CALC_FOUND_ROWS 快 得 多 。 


Xy 


6.7.7 REUNIONE n 


MySQL 总 是 通过 创建 并 填充 临时 表 的 方式 来 执行 UNION 碍 询 。 因 此 
很 多 优化 策略 在 UN10N 查 询 中 都 没 法 很 好 地 使 用 。 经 党 需要 手工 地 将 
WHERE, LIMIT, ORDER ”BY 等 子 句 “下 推 ? 到 UNI10N 的 各 个 子 查 询 中 ， 以 便 
优化 器 可 以 充分 利用 这 些 条 件 进行 优化 〈 例 如， 直接 将 这 些 子 句 见 余地 
写 一 份 到 各 个 子 查 询 ) 。 





除非 确实 需要 服务 器 消除 重复 的 行 ， 否 则 就 一 定 要 使 用 UNION 
ALL， 这 一 点 很 重要 。 如 果 没 有 ALL 关 键 字 ，MySQL 会 给 临时 表 加 
上 DISTINCT 选 项 ， 这 会 导致 对 整个 临时 表 的 数据 做 唯一 性 检查 。 这 样 做 
的 代价 非常 高 。 即 使 有 ALL 关 键 字 ，MySQL 仍 然 会 使 用 临时 表 存 储 结 
果 。 事 实 上 ，MySQL 总 是 将 结果 放 入 临时 表 ， 然 后 再 读 出 ， 再 返回 给 
客户 端 。 虽 然 很 多 时 候 这 样 做 是 没有 必要 的 《例如 ，MySQL 可 以 直接 
把 这 些 结果 返回 给 客户 端 ) 。 


6.7.8 ”静态 查询 分 析 


Percona Toolkit 中 的 pt-query-advisor 能 够 解析 查询 日 志 、 分 析 查 询 模 
式 ， 然 后 给 出 所 有 可 能 存在 潜在 问题 的 查询 ， 并 给 出 足够 详细 的 建议 。 
这 像 是 给 MySQL 所 有 的 查询 做 一 次 全 面 的 健康 检查 。 它 能 检测 出 许多 
常见 的 问题 ， 诸 如 我 们 前 面 介绍 的 内 容 。 


6.7.9 ”使 用 用 户 目 定义 变量 


用 户 目 定义 变量 是 一 个 容易 被 遗 筷 的 MySQL 特 性 ， 但 是 如 果 能 够 
用 好 ， 发 挥 其 潜力 ， 在 荣 些 场景 可 以 写 出 非常 高 效 的 碍 询 语 句 。 在 碍 询 
中 混合 使 用 过 程 化 和 关系 化 逻辑 的 时 候 ， 自 定义 变量 可 能 会 非常 有 用 。 


























单纯 的 关系 查询 将 所 有 的 东西 都 当成 无 序 的 数据 集合 ， 并 且 一 次 性 操作 
它们 。MySQL 则 采用 了 更 加 程序 化 的 处 理 方式 。MySQL 的 这 种 方式 有 
它 的 弱点 ， 但 如 有 末 能 熟练 地 和 擎 握 ， 则 会 发 现 其 强大 之 处 ， 而 用 户 自 定义 
变量 也 可 以 给 这 种 方式 带 来 很 大 的 帮助 。 








用 户 目 定 义 变量 是 一 个 用 来 存储 内 容 的 临时 容器 ， 在 连接 MySQL 


的 整个 过 程 中 都 存在 。 可 以 使 用 下 面 的 SET 和 SELECT 语句 来 定义 它们 


8), 


mysql> SET @one c= 1; 
mysql> SET @min_actor := (SELECT MIN(actor_id) FROM sakila.ac 


mysql> SET @last_week := CURRENT_DATE-INTERVAL 1 WEEK; 





然后 可 以 在 任何 可 以 使 用 表达 式 的 地 方 使 用 这 些 自 定义 变量 : 


mysql> SELECT ... WHERE col<=@last_week; 





在 了 解 自 定义 变量 的 强大 之 前 ， 我 们 再 看 看 它 自 身 的 一 些 属性 和 限 





， 看 看 在 哪些 场景 下 我 们 不 能 使 用 用 户 自 定义 变量 : 





使 用 自 定义 变量 的 查询 ， 无 法 使 用 查询 缓存 。 

不 能 在 使 用 常量 或 者 标识 符 的 地 方 使 用 自 定 义 变量 ， 例 如 表 名 、 列 
名 和 LIMIT 子 句 中 。 

用 户 自 定义 变量 的 生命 周期 是 在 一 个 连接 中 有 效 ， 所 以 不 能 用 它们 
来 做 连接 间 的 通信 。 

如 果 使 用 连接 池 或 者 持久 化 连接 ， 自 定义 变量 可 能 让 看 起 来 毫 无 关 
系 的 代码 发 生 交 互 〈 如 果 是 这 样 ， 通 常 是 代码 bug 或 者 连接 池 bug， 
这 类 情况 确实 可 能 发 生 ) 。 

在 5.0 之 前 的 版 本 ， 是 大 小 写 敏 感 的 ， 所 以 要 注意 代码 在 不 同 











MySQL 版 本 间 的 兼容 性 问题 。 

不 能 显 式 地 声明 自 定义 变量 的 类 型 。 确 定 未 定义 变量 的 具体 类 型 的 
时 机 在 不 同 MySQL 版 本 中 也 可 能 不 一 样 。 如 果 你 希望 变量 是 整数 
类 型 ， 那 么 最 好 在 初始 化 的 时 候 就 赋值 为 0， 如 果 和 希望 是 浮 点 型 则 
赋值 为 0.0， 如 果 希 望 是 字符 串 则 赋值 为 "， 用 户 自 定义 变量 的 类 型 
在 赋值 的 时 候 会 改变 。MySQL 的 用 户 自 定 义 变量 是 一 个 动态 类 
型 。 

MySQL 优 化 器 在 某 些 场景 下 可 能 会 将 这 些 变量 优化 掉 ， 这 可 能 导 
致 代 码 不 按 预 想 的 方式 运行 。 

赋值 的 顺序 和 赋值 的 时 间 点 并 不 总 是 固定 的 ， 这 依赖 于 优化 器 的 决 
定 。 实 际 情况 可 能 很 让 人 困惑 ， 后 面 我 们 将 看 到 这 一 点 。 

赋值 符号 := 的 优先 级 非常 低 ， 所 以 需要 注意 ， 赋 值 表达 式 应 该 使 用 
明确 的 括号 。 使 用 未 定义 变量 不 会 产生 任何 语法 错误 ， 如 果 没 有 意 
识 到 这 一 点 ， 非 常 容 易 犯 错 。 























优化 排名 语句 





使 用 用 户 自 定义 变量 钨 的 一 个 重要 特性 是 你 可 以 在 给 一 个 变量 赋 
值 的 同时 使 用 这 个 变量 。 换 句 话说 ， 用 户 自 定义 变量 的 赋值 具有 “ 左 
值 ” 特 性 。 下 面 的 例子 展示 了 如 何 使 用 变量 来 实现 一 个 类 似 “ 行 号 (row 
number) ”的 功能 : 








mysql> SET @rownum := 0; 
mysql> SELECT actor_id, @rownum := @rownum + 1 AS rownum 


这 个 例子 的 实际 意义 并 不 大 ， 它 只 是 实现 了 一 个 和 该 表 主 键 一 样 的 
列 。 不 过 ， 我 们 也 可 以 把 这 当 作 一 个 排名 。 现 在 我 们 来 看 一 个 更 复杂 的 
用 法 。 我 们 先 编写 一 个 查询 获取 演 过 最 多 电影 的 前 10 位 演员 ， 然 后 根据 
他 们 的 出 演 电影 次 数 做 一 个 排名 ， 如 果 出 演 的 电影 数量 一 样 ， 则 排名 相 
同 。 我 们 先 编写 一 个 伍 询 ， 返 回 每 个 演员 参 演 电影 的 数量 : 








mysql> SELECT actor id, COUNT(*) as cnt 
-> FROM sakila.film actor 
-> GROUP BY actor id 
-> ORDER BY cnt DESC 











-> ter 10; 
+----------+----- + 
actor_id | cnt 
+---------- +----- 十 
107 42 
102 41 
198 40 
181 39 
23 37 
81 36 
106 35 
60 35 
13 35 
158 35 

+---------- +----- + 


现在 我 们 再 把 排名 加 上 去 ， 这 里 看 到 有 四 名 演员 都 参 演 了 35 部 电 
影 ， 所 以 他 们 的 排名 应 该 是 相同 的 。 我 们 使 用 三 个 变量 来 实现 : 一 个 用 
来 记录 当前 的 排名 ， 一 个 用 来 记录 前 一 个 演员 的 排名 ， 还 有 一 个 用 来 记 
录 当 前 演员 参 演 的 电影 数量 。 只 有 当前 演员 参 演 的 电影 的 数量 和 前 一 个 
演员 不 同时 ， 排 名 才 变 化 。 我 们 先 试 试 下 面 的 写法 : 








mysql> SET @curr_cnt := 0, @prev_cnt := 0, @rank := 0; 
mysql> SELECT actor_id, 
-> @curr_cnt := COUNT(*) AS cnt, 
-> @rank = IF(@prev_cnt <> @curr_cnt, @rank + 1, @rank) AS rank, 
3 @prev_cnt := @curr_cnt AS dummy 
-> FROM sakila.film_actor 
-> GROUP BY actor id 
-> ORDER BY cnt DESC 


-> LIMIT 10; 

+---------- +----- +------ +------- 十 
| actor id | cnt | rank | dummy 
+---------- +----- +------ +------- 十 
| doy | a] a | 0 | 
| 102 | 41 | oO | a | 


Oops 一 一 排名 和 统计 列 一 直 都 无 法 更 新 ， 这 是 什么 原因 ? 


对 这 类 问题 ， 是 没 法 给 出 一 个 放 之 四 海 童 准 的 答案 的 ， 例 如 ， 一 个 
变量 名 的 拼写 错误 就 可 能 导致 这 样 的 问题 〈 这 个 案例 中 并 不 是 这 个 原 
因 ) ， 有 共 体 问题 要 具体 分 析 。 这 里 ， 通 过 EXPLAIN 我 们 看 到 将 会 使 用 临 
时 表 和 文件 排序 ， 所 以 可 能 是 由 于 变量 赋值 的 时 间 和 我 们 预料 的 不 同 。 




















在 使 用 用 户 自 定 义 变量 的 时 候 ， 经 常会 遇 到 一 些 “ 诡 异 ” 的 现象 ， 要 
揪 出 这 些 问 题 的 原因 通常 都 不 容易 ， 但 是 相 比 其 市 来 的 好 处 ， 深 完 这 些 
问题 是 值得 的 。 使 用 SQL 语句 生成 排名 值 通常 需要 做 两 次 计算 ， 例 如 ， 
需要 额外 计算 一 次 出 演 过 相同 数量 电影 的 演员 有 哪些 。 使 用 变量 则 可 一 
次 完成 一 一 这 对 性 能 是 一 个 很 大 的 提升 。 








针对 这 个 采 例 ， 为 一 个 简单 的 方案 是 在 FROM 子 句 中 使 用 子 但 询 生 
成 一 个 中 间 的 临时 表 : 


mysql> SET @curr_cnt := 0, @prev_cnt := 0, @rank := 0; 
-> SELECT actor_id, 
=> @curr_cnt := cnt AS cnt, 
> @rank := IF(@prev_cnt <> @curr_cnt, @rank + 1, @rank) AS rank, 
> @prev_cnt := @curr_cnt AS dummy 
-> FROM ( 
> SELECT actor_id, COUNT(*) AS cnt 
= FROM sakila.film_actor 
> GROUP BY actor_id 
> ORDER BY cnt DESC 
> 
> 














LIMIT 10 
) as der; 
+---------- +----- +------+------- + 
| actor id | cnt | rank | dummy 
| 107 42 1 | 42 
| 102 41 2 41 
| 198 | 40 3) || 40 
| 181 | 39 4 | 39 
| 23 37 5 37 
| 81 | 36 6 36 
| 106 35 7 35 
| 60 | 35 i || 35 
| 13 35 ii 35 
| 158 | 35 vi 35 
Pe 各 = 有 = = + 


HE es E IS A A PA] Bt EY ieda 





如 果 在 更 新 行 的 同时 又 希望 获得 该 行 的 信息 ， 要 怎么 做 才能 避免 重 
复 的 查询 呢 ? ASAE, MySQLIFA SCH PostgreSQL Al HUPDATE 
RETURNING 语 法 ， 这 个 语法 可 以 帮 你 在 更 新 行 的 时 候 同 时 返回 该 行 的 信 
尽 。 还 好 在 MySQL 中 你 可 以 使 用 变量 来 解决 这 个 问题 。 例 如 ， 我 们 的 
一 个 客户 和 希望 能 够 更 高 效 地 更 新 一 条 记录 的 时 间 惟 ， 同 时 希望 查询 当前 
记录 中 存放 的 时 间 惟 是 什么 。 简 单 地 ， 可 以 用 下 面 的 代码 来 实现 : 


UPDATE t1 SET lastUpdated = NOW() WHERE id = 1; 
SELECT lastUpdated FROM t1 WHERE id = 1; 





使 用 变量 ， 我 们 可 以 按 如 下 方式 重 写 碍 询 : 


UPDATE t1 SET lastUpdated = NOW() WHERE id = 1 AND @now := NO 


SELECT @now; 





上 面 看 起 来 仍然 需要 两 个 得 询 ， 需 要 两 次 网 络 来 回 ， 但 是 这 里 的 第 
二 个 得 询 无 须 访 问 任 何 数据 表 ， 所 以 会 快 非常 多 。《 如 有 果 网 络 延迟 非常 
大 ， 那 么 这 个 优化 的 意义 可 能 不 大 ， 不 过 对 这 个 客户 ， 这 样 做 的 效果 很 
Uo ) 


统计 更 新 和 插入 的 数量 
当 使 用 了 INSERT ON DUPLICATE KEY UPDATE 的 时 候 ， 如 果 想 知道 


到 底 插 入 了 多 少 行 数据 ， 到 底 有 多 少数 据 是 因为 冲突 而 改写 成 更 新 操作 
的 ? Kerstian Kéhntopp 在 他 的 博客 上 给 出 了 一 个 解决 这 个 问题 的 办 法 


60。 实 现 办 法 的 本 质 如 下 : 


INSERT INTO t1(c1，c2) VALUES(4, 4), (2, 1), (3, 1) 
ON DUPLICATE KEY UPDATE 
c1 = VALUES(c1) + ( © * ( @x := Qx +1 ) ); 








BEUR PUP RS BUR TY AAR @x AI — i. PAW MIR 
表达 式 乘 以 0 来 让 其 不 影响 要 更 新 的 内 容 。 力 外 ，MySQL 的 协议 会 返回 
被 更 改 的 总 行 数 ， 所 以 不 需要 单独 统计 这 个 值 。 


确定 取 值 的 顺序 








使 用 用 户 目 定义 变量 的 一 个 最 常见 的 问题 就 是 没有 注意 到 在 赋值 和 
读 取 变 量 的 时 候 可 能 是 在 查询 的 不 同 阶段 。 例 如 ， 在 SELECT 子 句 中 进行 
赋值 然后 在 WHERE 子 句 中 读 取 变量 ， 则 可 能 变量 取 值 并 不 如 你 所 想 。 下 
面 的 碍 询 看 起 来 只 返回 一 个 结果 ， 但 事实 并 非 如 此 : 





mysql> SET @rownum := 0; 

mysql> SELECT actor_id, @rownum := @rownum + 1 AS cnt 
-> FROM sakila.actor 
-> WHERE @rownum <= 1; 

+---------- +------ + 

| actor id | cnt | 


因为 WHERE 和 SELECT 是 在 查询 执行 的 不 同 阶段 被 执行 的 。 如 果 
在 查询 中 再 加 入 ORDER BY 的 话 ， 结 果 可 能 会 更 不 同 : 


mysql> SET @rownum := 0; 
mysql> SELECT actor_id, @rownum := @rownum + 1 AS cnt 


-> FROM sakila.actor 


-> WHERE @rownum <= 1 


-> ORDER BY first_name; 


这 是 因为 ORDER ”BY 引入 了 文件 排序 ， 而 WHERE 条 件 是 在 文件 排序 操 
作 之 前 取 值 的 ， 所 以 这 条 查询 会 返回 表 中 的 全 部 记录 。 解 决 这 个 问题 的 
办 法 是 让 变量 的 赋值 和 取 值 发 生 在 执行 查询 的 同一 阶段 : 


mysql> SET @rownum := 0; 
mysql> SELECT actor_id, @rownum AS rownum 
-> FROM sakila.actor 


小 测试 : 如 果 在 上 面 的 查询 中 再 加 上 ORDER ”BY， 那 会 返回 什么 结 
R? 试 试看 吧 。 如 果 得 出 的 结果 出 乎 你 的 意料 ， 想 想 为 什么 ?再 看 下 面 
这 个 查询 会 返回 什么 ， 下 面 的 查询 中 ORDER ”BY 子 句 会 改变 变量 值 ， 那 
WHERE 语句 执行 时 变量 值 是 多 少 。 











mysql> SET @rownum := 0; 

mysql> SELECT actor_id, first_name, @rownum AS rownum 
-> FROM sakila.actor 
-> WHERE @rownum <= 1 


-> ORDER BY first_name, LEAST(0, @rownum := @rownum + 1); 


这 个 最 出 人 意料 的 变量 行为 的 答案 可 以 在 EXPLAIN 语 句 中 找到 ， 
注意 看 在 Extra 列 中 的 “Using where”, “Using ”temporary” 或 者 “Using 


filesort”。 





在 上 面 的 最 后 一 个 例子 中 ， 我 们 引入 了 一 个 新 的 技巧 : 我们 将 赋值 
语句 放 到 LEAST O 函数 中 ， 这 样 就 可 以 在 完全 不 改变 排序 顺序 的 时 候 完 








成 赋值 操作 (在 上 面 例 子 中 ，LEAST0 函数 总 是 返回 0) 。 这 个 技巧 在 不 
希望 对 子 句 的 执行 结果 有 影响 却 又 要 完成 变量 赋值 的 时 候 很 有 用 。 这 个 
例子 中 ， 无 须 在 返回 值 中 新 增 额外 列 。 这 样 的 函数 还 有 GREATEST 0 、 
LENGHT () 、1SNULL () 、NULLIFL () 、IF () 和 COALESCE () ， 可 以 单独 使 用 
也 可 以 组 合 使 用 。 例 如 ，COALESCE () 可 以 在 一 组 参数 中 取 第 一 个 已 经 被 
定义 的 变量 。 


编写 偷懒 的 UNION 


假设 需要 编写 一 个 UNION 碍 询 ， 其 第 一 个 子 碍 询 作为 分 文 条 件 移 执 
行 ， 如 果 找 到 了 匹配 的 行 ， 则 跳 过 第 二 个 分 文 。 在 某 些 业务 场景 中 确实 
会 有 这 样 的 需求 ， 比 如 先 在 一 个 频繁 访问 的 表 中 僵 找 “ 热 ” 数 据 ， 找 不 到 
再 去 另外 一 个 较 少 访问 的 表 中 查找“ 准 ? 数 据 。《〈 区 分 热 数据 和 次 数据 是 
一 个 很 好 的 提高 缓存 命中 率 的 办 法 ) 。 














下 面 的 查询 会 在 两 个 地 方 查找 一 个 用 户 一 一 一 个 主 用 户 表 、 一 个 长 
时 间 不 活跃 的 用 户 表 ， 不 活跃 用 户 表 的 目的 是 为 了 实现 更 高 效 的 归 
pen, 





SELECT id FROM users WHERE id=123 
UNION ALL 


SELECT id FROM users_archived WHERE id=123; 





上 面 这 个 查询 是 可 以 正常 工作 的 ， 但 是 即使 在 users 表 中 已 经 找到 
了 记录 ， 上 面 的 查询 还 是 会 去 归档 表 users_archived 中 再 查找 一 次 。 我 
们 可 以 用 一 个 偷懒 的 UN10N 查 询 来 抑制 这 样 的 数据 返回 ， 而 且 只 有 当 第 
一 个 表 中 没有 数据 时 ， 我 们 才 在 第 二 个 表 中 查询 。 一 旦 在 第 一 个 表 中 找 











到 记录 ， 我 们 就 定义 一 个 变量 efound。 我 们 通过 在 结果 列 中 做 一 次 赋值 
来 实现 ， 然 后 将 赋值 放 在 函数 GREATEST 中 来 避免 返回 额外 的 数据 。 为 了 
明确 我 们 的 结果 到 底 来 自 哪个 表 ， 我 们 新 增 了 一 个 包含 表 名 的 列 。 最 后 
我 们 需要 在 查询 的 末尾 将 变量 重 置 为 NULL， 这 样 保证 所 历时 不 干扰 后 面 
的 结果 。 完 成 的 查询 如 下 : 








SELECT GREATEST(@found := -1, id) AS id, ‘users' AS which_tbl 
FROM users WHERE id = 1 
UNION ALL 
SELECT id, 'users_archived' 
FROM users_archived WHERE id = 1 AND @found IS NULL 
UNION ALL 


SELECT 1, 'reset' FROM DUAL WHERE ( @found := NULL ) IS NOT 


用 户 目 定义 变量 的 其 他 用 处 





不 仅 是 在 SELECT 语句 中 ， 在 其 他 任何 类 型 的 SQL 语句 中 都 可 以 对 变 
量 进行 赋值 。 事 实 上 ， 这 也 是 用 户 自 定义 变量 最 大 的 用 途 。 例 如 ， 可 以 
像 前 面 使 用 子 查 询 的 方式 改进 排名 语句 一 样 来 改进 UPDATE 语 人 句 。 








不 过 ， 我 们 需要 使 用 一 些 技巧 来 获得 我 们 希望 的 结果 。 有 时 ， 优 化 
融会 把 变量 当 作 一 个 编译 时 常量 来 对 符 ， 而 不 是 对 其 进行 赋值 。 将 函数 
放 在 类 似 于 LEAST () 这 样 的 函数 中 通常 可 以 避免 这 样 的 问题 。 为 一 个 办 
法 是 在 查询 被 执行 前 检查 变量 是 否 被 赋值 。 不 同 的 场景 下 使 用 不 同 的 办 
s 
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情 ， 例 如 下 面 这 些 用 法 : 


。 查询 运行 时 计算 总 数 和 平均 值 。 

。 模拟 GROUP 语 句 中 的 函数 FIRST () 和 LAST () 。 

。 对 大 量 数据 做 一 些 数据 计算 。 

。 计算 一 个 大 表 的 MD5 散 列 值 。 

。 编写 一 个 样本 处 理 函 数 ， 当 样本 中 的 数值 超过 某 个 边界 值 的 时 候 将 
其 变 成 0。 

。 模拟 读 / 写 游标 。 

。 在 SHOW 语句 的 WHERE 子 句 中 加 入 变量 值 。 


C.J. DATE 的 难题 


C. J，DATE 建 议 在 使 用 数据 库 设 计 方法 时 尽量 让 SQL 数据 库 符 合 传 
统 关系 数据 库 的 要 求 。 这 也 是 根据 关系 模型 设计 SQL 时 的 初衷 ， 但 坦 
白地 说 ， 在 这 一 点 上 ，MySQL 远 不 如 其 他 数据 库 管 理 系 统 做 得 好 。 所 
以 如 果 按 照 0. J. ”DATE 书 中 的 建议 编写 的 适合 关系 模型 的 SQL 语句 在 


MySQL 中 运行 的 效率 并 不 高 ， 例 如 编写 一 个 多 层 的 子 查询 。 很 不 幸 ， 
这 是 因为 MySQL 本 身 的 限制 性 致 无 法 按照 标准 的 模式 运行 。 我 们 强烈 
建议 你 阅读 这 本 书 SQL and Relational Theory:How to Write 
Accurate SQL 
Code (http://shop. xrei |! ly. com/product/0636920022879. do) 
(0'Reilly 出 版 )”， 它 将 改变 你 对 SQL 语 和 句 的 认识 。 





6.8 ”案例 学 习 


通常 ， 我 们 要 做 的 不 是 查询 优化 ， 不 是 库 表 结 构 优化 ， 不 是 索引 优 
化 也 不 是 应 用 设计 优化 一 一 在 实践 中 可 能 要 面 对 所 有 这 些 搅和 在 一 起 的 
情况 。 本 节 的 案例 将 为 大 家 介绍 一 些 经 常 困 扰 用 户 的 问题 和 解决 方法 。 
另外 我 们 还 要 推荐 Bi Karwin 的 书 SQL Antipatterns( 一 本 实践 型 的 书 
籍 ) 。 它 将 介绍 如 何 使 用 SQL 解决 各 种 程序 员 疑 难 杂 症 。 


6.8.1 ”使 用 MySQL 构建 一 个 队列 表 


使 用 MySQL 来 实现 队列 表 是 一 个 取 巧 的 做 法 ， 我 们 看 到 很 多 系统 
在 高 流量 、 高 并 发 的 情况 下 表现 并 不 好 。 典 型 的 模式 是 一 个 表 包 含 多 种 
类 型 的 记录 : 未 处 理 记 录 、 已 处 理 记 录 、 正 在 处 理 记 录 等 。 一 个 或 者 多 
个 消费 者 线程 在 表 中 查找 未 处 理 的 记录 ， 然 后 声称 正在 处 理 ， 当 处 理 完 
成 后 ， 再 将 记录 更 新 成 已 处 理 状态 。 一 般 的 ， 例 如 邮件 发 送 、 多 命令 处 
理 、 评 论 修改 等 会 使 用 类 似 模式 。 























通常 有 两 个 原因 使 得 大 家 认为 这 样 的 处 理 方式 并 不 合适 。 第 一 ， 随 
者 队列 表 越 来 越 大 和 索引 深度 的 增加 ， 找 到 未 处 理 记 录 的 速度 会 随 之 变 
慢 。 你 可 以 通过 将 队列 表 分 成 两 部 分 来 解决 这 个 问题 ， 束 是 将 已 处 理 记 
录 归 档 或 者 存放 到 历史 表 ， 这 可 以 始终 保证 队列 表 很 小 。 











第 二 ， 一 般 的 处 理 过 程 分 两 步 ， 先 找到 未 处 理 记录 然后 加 锁 。 找 到 
记录 会 增加 服务 器 的 压力 ， 而 加 锁 操作 则 会 让 各 个 消费 者 进程 增加 竞 
争 ， 因 为 这 是 一 个 串 行 化 的 操作 。 在 第 11 章 ， 我 们 会 看 到 这 为 什么 会 限 





制 可 扩展 性 。 


找到 未 处 理 记录 一 般 来 说 都 没 问 题 ， 如 果 有 问题 则 可 以 通过 使 用 消 
县 的 方式 来 通知 各 个 消费 者 。 有 具体 的 ， 可 以 使 用 一 个 带 有 注释 的 
SLEEP () 函数 做 超时 处 理 ， 如 下 : 





SELECT /* waiting on unsent_emails */ SLEEP (10000); 





这 让 线程 一 直 阻 塞 ， 直 到 两 个 条 件 之 一 满足 : 10000 秒 后 超时 ， 或 
者 另 一 个 线程 使 用 KILL QUERY 结束 当前 的 SLEEP。 因 此 ， 当 再 向 队列 表 
中 新 增 一 批 数据 后 ， 可 以 通过 SHOW PROCESSLIST， 根 据 注 释 找到 当前 正 
在 休眠 的 线程 ， 并 将 其 KILL。 你 可 以 使 用 函数 GET_LOCK () 和 
RELEASE_LOCK () 来 实现 通知 ， 或 者 可 以 在 数据 库 之 外 实现 ， 例 如 使 用 一 
个 消息 服务 。 





最 后 需要 解决 的 问题 是 如 何 让 消费 者 标记 正在 处 理 的 记录 ， 而 不 至 
于 让 多 个 消费 者 重复 处 理 一 个 记录 。 我 们 看 到 大 家 一 般 使 用 SELECT FOR 
UPDATE 来 实现 。 这 通常 是 扩展 性 问题 的 根源 ， 这 会 导致 大 量 的 事务 阻塞 


并 等 符 。 








一 般 ， 我 们 要 尽量 避免 使 用 SELECT FOR UPDATE。 不 光 是 队列 表 ， 
任何 情况 下 都 要 尽量 避免 。 总 是 有 别 的 更 好 的 办 法 实现 你 的 目的 。 在 队 
列表 的 案例 中 ， 可 以 直接 使 用 UPDATE 来 更 新 记录 ， 然 后 检查 是 否 还 有 其 
他 的 记录 需要 处 理 。 我 们 看 看 具体 实现 ， 我 们 先 建立 如 下 的 表 : 





CREATE TABLE unsent_emails ( 
id INT NOT NULL PRIMARY KEY AUTO_INCREMENT 
- columns for the message, from, to, subject, etc. 


status ENUM('unsent', 'claimed', 'sent'), 


owner INT UNSIGNED NOT NULL DEFAULT 0, 
ts TIMESTAMP, 
KEY (owner, status, ts) 


); 


该 表 的 列 owner 用 来 存储 当前 正在 处 理 这 个 记录 的 连接 1D， 即 由 水 
数 CONNECTION_1D 0 返回 的 1D。 如 果 当 前 记录 没有 被 任何 消费 者 处 理 ， 
则 该 值 为 0。 





我 们 还 经 名 看 到 的 一 个 办 法 是 ， 如 下 面 所 示 的 一 次 处 理 10 条 记录 : 


BEGIN; 
SELECT id FROM unsent_emails 
LIMIT 10 FOR UPDATE; 
- result: 123, 456, 789 
UPDATE unsent_emails 
SET status = 'claimed', owner = CONNECTION_ID() 
WHERE id IN(123, 456, 789); 


COMMIT; 


看 到 这 里 的 SELECT 得 询 可 以 使 用 到 索引 的 两 个 列 ， 因 此 理论 上 奉 找 
的 效率 应 该 更 快 。 问 题 是， 在 上 面 两 个 查询 之 间 的 “ 间 际 时 间 ”， 这 里 的 
锁 会 让 所 有 其 他 同样 的 查询 全 部 都 被 阻塞 。 所 有 的 这 样 的 碍 询 将 使 用 相 
同 的 索引 ， 扫 描 索 引 相 同 的 部 分 ， 所 以 很 可 能 会 被 阻 夺 。 








如 果 改 进 成 下 面 的 写法 ， 则 会 更 加 高 效 : 


SET AUTOCOMMIT = 1; 
COMMIT; 


UPDATE unsent_emails 
SET status = 'claimed', owner = CONNECTION_ID() 
WHERE owner = © AND status = 'unsent' 
LIMIT 10; 
SET AUTOCOMMIT = ©; 
SELECT id FROM unsent_emails 
WHERE owner = CONNECTION_ID() AND status = 'claimed'; 


-- result: 123, 456, 789 


根本 就 无 须 使 用 SELECT 查询 去 找到 哪些 记录 还 没有 被 处 理 。 客 户 
端的 协议 会 告诉 你 更 新 了 几 条 记录 ， 所 以 可 以 知道 这 次 需要 处 理 多 少 条 
记录 。 





所 有 的 SELECT FOR _ UPDATE 都 可 以 使 用 类 似 的 方法 改写 。 


最 后 还 需要 处 理 一 种 特殊 情况 : 那些 正在 被 进程 处 理 ， 而 进程 本 里 
却 由 于 某 种 原因 退出 的 情况 。 这 种 情况 处 理 起 来 很 简单 。 你 只 需要 定期 
运行 UPDATE 语 句 将 它 都 更 新 成 原始 状态 束 可 以 了 ， 然 后 执行 SHOW 
PROCESSLIST， 获 取 当 前 正在 工作 的 线程 ID， 并 使 用 一 些 WHERE 条 件 避 免 
取 到 那些 刚 开 始 处 理 的 进程 。 假 设 我 们 获取 的 线程 ID 有 (10、20、 
30) ， 下 面 的 更 新 语句 会 将 处 理 时 间 超 过 10 分 钟 的 记录 状态 都 更 新 成 初 
始 状态 : 





UPDATE unsent_emails 
SET owner = 0, status = ‘'unsent' 
WHERE owner NOT IN(0, 10, 20, 30) AND status = 'claimed' 


AND ts < CURRENT_TIMESTAMP - INTERVAL 10 MINUTE; 


另外 ， 注 意 看 看 是 如 何 巧妙 地 设计 索引 让 这 个 查询 更 加 高 效 的 。 这 
也 是 上 一 章 和 本 章 知 识 的 结合 。 因 为 我 们 将 范围 条 件 放 在 WHERE 条 件 的 
末尾 ， 这 个 查询 恰好 能 够 使 用 索引 的 全 部 列 。 其 他 的 查询 也 都 能 用 上 这 
个 索引 ， 这 就 避免 了 再 新 增 一 个 额外 的 索引 来 满足 其 他 的 查询 。 


这 里 我 们 将 总 结 一 下 这 个 案例 中 的 一 些 基 础 原则 : 





尽量 少 做 事 ， 可 以 的 话 就 不 要 做 任何 事情 。 除 非 不 得 已 ， 否 则 不 要 
使 用 轮 询 ， 因 为 这 会 增加 负载 ， 而 且 还 会 带 来 很 多 低产 出 的 工作 。 
尽 可 能 快 地 完成 需要 做 的 事情 。 尺 量 使 用 UPDATE 代 将 先 SELECT FOR 
UPDATE 再 UPDATE 的 写法 ， 因 为 事务 提交 的 速度 越 快 ， 持 有 的 锁 时 间 
就 越 短 ， 可 以 大 大 减少 竞争 和 加 速 串 行 执行 效率 。 将 已 经 处 理 完 成 
和 未 处 理 的 数据 分 开 ， 保 证 数据 集 足 够 小 。 

这 个 案例 的 另 一 个 启发 是 ， 某 些 查询 是 无 法 优化 的 ;考虑 使 用 不 同 
的 查询 或 者 不 同 的 策略 去 实现 相同 的 目的 。 通 常 对 于 SELECT FOR 
UPDATE 就 需要 这 样 处 理 。 








有 时 ， 最 好 的 办 法 就 是 将 任务 队列 从 数据 库 中 迁移 出 来 。Redis 惑 
是 一 个 很 好 的 队列 容器 ， 也 可 以 使 用 memcached 来 实现 。 另 一 个 选择 是 
使 用 Q4M 存 储 引擎 ， 但 我 们 没有 在 生产 环境 使 用 过 这 个 存储 引擎 ， 所 以 
这 里 也 没 办 法 提供 更 多 的 参考 。RabbitMQ 和 Gearmane2% 也 可 以 实现 类 似 
的 功能 。 


6.8.2 ”计算 两 点 之 间 的 距离 


地 理 信息 计算 再 次 出 现在 我 们 的 书 中 了 。 不 建议 用 户 使 用 MySQL 
做 太 复 杂 的 空间 信息 存储 一 一 PostgreSQL 在 这 方面 是 不 错 的 选择 一 一 我 





们 这 里 将 介绍 一 坚 各 用 的 计算 模式 。 一 个 典型 的 例子 是 计算 以 茶 个 点 为 
中 心 ， 一 定 半 径 内 的 所 有 后 。 








典型 的 实际 案例 可 能 是 查找 茶 个 点 附近 所 有 可 以 出 租 的 房子 ， 或 者 
社交 网 站 中 “匹配 ?附近 的 用 户 ， 等 等 。 假 设 我 们 有 如 下 表 : 


CREATE TABLE locations ( 
id INT NOT NULL PRIMARY KEY AUTO_INCREMENT, 
name VARCHAR(30), 
lat FLOAT NOT NULL, 
lon FLOAT NOT NULL 
) ; 
INSERT INTO locations(name, lat, lon) 
VALUES('Charlottesville, Virginia', 38.03, -78.48), 
('Chicago, Illinois', 41.85, -87.65), 
('Washington, DC', 38.89, -77.04); 


这 里 经 度 和 纬度 的 单位 是 “ 度 ”， 通 常 我 们 假设 地 球 是 圆 的 ， 然 后 使 
用 两 点 所 在 最 大 圆 〈 半 正 矢 ) 公式 来 计算 两 点 之 间 的 距离 。 现 在 有 坐 
标 jatA& 和 ;onA、jatB 和 onB， 那 么 点 A 和 点 B 的 距离 计算 公式 如 下 : 





ACOS( 
CoS(latA) * COS(latB) * COS(lonA - lonB) 
+ SIN(latA) * SIN(latB) 
) 


计算 出 的 结果 是 一 个 弧度 ， 如 果 要 将 结果 的 单位 转换 成 英里 或 者 干 
米 ， 则 需要 乘 以 地 球 的 半径 ， 也 就 是 3 959 英 里 或 者 6 371 干 米 。 假 设 我 


们 需要 找 出 所 有 距离 Baron 所 居住 的 地 方 Charlottesville 100% Œ NÉI 
点 ， 那 么 我 们 需要 将 经 纬度 带 入 上 面 的 计算 公式 : 


SELECT * FROM locations WHERE 3979 * ACOS( 
COS(RADIANS(lat)) * COS(RADIANS(38.03)) * COS(RADIANS(lon) - RADIANS(-78.48)) 
+ SIN(RADIANS(lat)) * SIN(RADIANS(38.03)) 
) <= 100; 


SAS Pe Sey een cere E ER E eR se are A 
| id | name | lat | lon | 
+----+--------------------------- +------- +-------- 十 
| 1 | Charlottesville, Virginia | 38.03 | -78.48 | 
| 3 | Washington, DC | 38.89 | -77.04 | 
+----+--------------------------- +------- +-------- + 





RAW MIE RG], ASSP AY FECPUIN E, 2S ARS 
融融 来 很 大 的 压力 ， 而 且 我 们 还 得 反复 计算 这 个 。 那 要 怎样 优化 呢 ? 











这 个 设计 中 有 几 个 地 方 可 以 做 优化 。 第 一 ， 看 看 是 否 真 的 需要 这 人 么 
精确 的 计算 。 其 实 这 种 算法 已 经 有 很 多 不 精确 的 地 方 了 ， 如 下 所 示 : 








。 两 个 地 方 之 则 的 直线 距离 可 能 是 100 英 里 ， 但 实际 上 它们 之 间 的 行 
走 距离 很 可 能 不 是 这 个 值 。 无 论 你们 在 哪 两 个 地 方 ， 要 到 达 彼 此 位 
置 的 行走 距离 多 半 都 不 是 直线 距离 ， 路 上 可 能 需要 绕 很 多 的 弯 ， 比 
如 说 如 果 有 一 条 河 ， 需 要 绕 远 走 到 一 个 有 桥 的 地 方 。 所 以 ， 这 里 计 
算 的 绝对 距离 只 是 一 个 参考 值 。 

如 果 我 们 根据 邮政 编码 来 确定 茶 个 人 所 在 的 地 区 ， 再 根据 这 个 地 区 
的 中 心 位 置 计 算 他 和 别人 的 距离 ， 那 么 这 本 里 就 是 一 个 估算 。 
Baron 住 在 Charlottesville， 不 过 不 是 在 中 心地 区 ， 他 对 华盛顿 物理 
位 置 的 中 心 也 不 感 兴 趣 。 




















所 以 ， 通 党 并 不 需要 精确 计算 ， 很 多 应 用 如 果 这 样 计算 ， 多 半 是 认 
真 过 头 了 。 这 类 似 于 有 效 数 字 的 估算 : 计算 结果 的 精度 永远 都 不 会 比 测 
量 的 值 更 高 。( 换 句 话 说 ,“ 错 进 ， 错 出 *”。) 


如 果 不 需 要 太 高 的 精度 ， 那 么 我 们 认为 地 球 是 圆 的 应 该 也 没什么 问 
题 ， 其 实 准 确 的 说 应 该 是 椭圆。 根据 毕 达 哥 拉 斯 定理 ， 做 些 三 角 函 数 变 
换 ， 我 们 可 以 把 上 面 的 公式 转换 得 更 简单 ， 只 需要 做 些 求 和 、 乘 积 以 及 
平方 根 运算 ， 就 可 以 得 出 一 个 点 是 否 在 另 一 个 点 多 少 英里 之 内 。3 





等 等 ， 为 什么 就 到 这 为 止 ? 我 们 是 否 真 需要 计算 一 个 圆周 呢 ? 为 什 
么 不 直接 使 用 一 个 正方 形 代替 ? 边 长 为 200 英 里 的 正方 形 ， 一 个 顶点 到 
中 心 的 距离 大 概 是 141 英 里 ， 这 和 实际 计算 的 100 英 里 相差 得 并 不 是 那么 
远 。 那 我 们 根据 正方 形 公式 来 计算 弧度 为 0.0253 (100 英 里 ) 的 中 心 到 
边 长 的 距离 : 





SELECT * FROM locations 
WHERE lat BETWEEN 38.03 - DEGREES(0.0253) AND 38.03 + DEGRE 
AND lon BETWEEN -78.48 - DEGREES(0.0253) AND -78.48 + DEGRE 


现在 我 们 看 看 如 何 使 用 索引 来 优化 这 个 查询 。 简 单 地 ， 我 们 可 以 增 
加 索引 (lat,lon) 或 者 (on,lat〉。 不 过 这 样 做 效果 并 不 会 很 好 。 正 如 我 
们 所 知 ，MySQL 5.5 和 之 前 的 版 本 ， 如 果 第 一 列 是 范围 查询 的 话 ， 就 无 
法 使 用 索引 后 面 的 列 了 。 因 为 两 个 列 都 是 范围 的 ， 所 以 这 里 只 能 使 用 索 
引 的 一 个 列 〈BETWEEN 等 效 于 一 个 大 于 和 一 个 小 于 ) 。 





我 们 再 次 想起 了 通常 使 用 的 INO 优 化 。 我 们 先 新 增 两 个 列 ， 用 来 存 
储 坐 标的 近似 值 FLOORO， 然 后 在 查询 中 使 用 IN O 将 所 有 点 的 整数 值 都 
放 到 列表 中 。 下 面 是 我 们 需要 新 增 的 列 和 索引 : 





mysql> ALTER TABLE locations 
-> ADD lat_floor INT NOT NULL DEFAULT 0, 


-> ADD lon_floor INT NOT NULL DEFAULT 0, 


-> ADD KEY(lat_floor, lon_floor); 
mysql> UPDATE locations 
-> SET lat_floor = FLOOR(lat), lon_floor = FLOOR(lon); 





现在 我 们 可 以 根据 坐标 的 一 定 范 围 的 近似 值 来 搜索 了 ， 这 个 近似 值 
包括 地 板 值 和 天 花 板 值 ， 地 理 上 分 别 对 应 的 是 南北 。 下 面 的 查询 为 我 们 
只 展示 了 如 何 查 茶 个 范围 的 所 有 点 ;数值 需要 在 应 用 程序 中 计算 而 不 是 
MySQL: 


mysql> SELECT FLOOR( 38.03 - DEGREES(0.0253)) AS lat 1b, 
2 CEILING( 38.03 + DEGREES(0.0253)) AS lat_ub, 
=> FLOOR(-78.48 - DEGREES(0.0253)) AS lon 1b, 
=> DI- -78.48 + PETA 0253)) AS lon ub; 

| lat lb | lat_ub | lon lb | lon ub | 

+-------- +--------+--------+-------- 十 

| 36 | 40 -80 | =i 

+-------- +--------+--------+-------- 十 





现在 我 们 就 可 以 生成 INO 列 表 中 的 整数 了 ， 也 区 是 前 面 计算 的 地 板 
和 天 人 花 板 数值 之 间 的 数字 。 下 面 是 加 上 WHERE 条 件 的 完整 查询: 


SELECT * FROM locations 

WHERE lat BETWEEN 38.03 - DEGREES(0.0253) AND 38.03 + DEGRE 
AND lon BETWEEN -78.48 - DEGREES(0.0253) AND -78.48 + DEGRE 
AND lat_floor IN(36,37,38,39,40) AND lon_floor IN(-80, -79, - 


EAE LATA TZ Sada 所 以 我 们 还 需要 一 些 额 
外 的 条 件 剔 除 在 正方 形 之 外 的 点 。 es 
似 : 先 建 一 个 索引 帮 我 们 过 滤 出 近似 值 ， 再 使 用 精确 条 件 匹 配 所 有 的 记 
录 并 移 除 不 满足 条 件 的 记录 。 


事实 上 ， 到 这 时 我 们 就 无 须根 据 正 方形 的 近似 来 过 滤 数 据 了 ， 我 们 
可 以 使 用 最 大 圆 公式 或 者 毕 达 哥 拉 斯 定理 来 计算 : 


SELECT * FROM locations 
WHERE lat_floor IN(36,37,38,39,40) AND lon_floor IN(-80, -79, - 
AND 3979 * ACOS( 
COS(RADIANS(lat)) * COS(RADIANS(38.03)) * COS(RADIANS(1lon) 
+ SIN(RADIANS(lat)) * SIN(RADIANS(38.03) ) 


) <= 100; 
这 时 计算 精度 再 次 回 到 前 面 一 一 使 用 一 个 精确 的 圆周 一 一 不 过 ， 现 





在 的 做 法 更 快 SO。 只 要 能 够 高 效 地 过 滤 掉 大 部 分 的 点 ， 例 如 使 用 近似 
整数 和 索引 ， 之 后 再 做 精确 数学 计算 的 代价 并 不 大 。 只 是 不 要 直接 使 用 
大 圆周 的 算法 ， 人 否则 速度 会 很 慢 。 






































全.Sphinx 有 很多 内 置 的 地 理 信息 搜索 功能 ， 比 MySQL 实 现 要 好 很 多 。 如 果 正在 考虑 全 














用 MyISAM 的 GIS 函 数 ， 并 使 用 上 面 的 技巧 来 计算 ， 那 么 你 需要 记 住 : 这 样 做 效果 并 不 会 很 好 ， 
MyISAM 本 身 也 并 不 适合 大 数据 量 、 高 并 发 的 应 用 ， 另 外 MyISAM 本 身 还 有 一 些 弱 点 ， 如 数据 
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回顾 一 下 上 面 的 案例 ， 我 们 采用 了 下 面 这 些 常用 的 优化 策略 : 





。 尽量 少 做 事 ， 可 能 的 话 尽量 不 做 事 。 这 个 案例 中 就 不 要 对 所 有 的 后 
计算 大 圆周 公式 ; 先 使 用 简单 的 方案 过 小 大 多 数 数据 ， 然 后 再 到 过 
滤 出 来 的 更 小 的 集合 上 使 用 复杂 的 公式 运算 。 

。 快速 地 完成 事情 。 确 保 在 你 的 设计 中 尽 可 能 地 让 碍 询 都 用 上 合适 的 
索引 ， 使 用 近似 计算 (例如 本 案例 中 ， 认 为 地 球 是 平 的 ， 使 用 一 个 
正方 形 来 近似 圆周 ) 来 避免 复杂 的 计算 。 

。 需要 的 时 候 ， 尽 可 能 让 应 用 程序 完成 一 些 计 算 。 例 如 本 案例 中 ， 在 
应 用 程序 中 计算 所 有 的 三 角 函 数 。 





6.8.3 ”使 用 用 户 目 定义 函数 


当 SQL 语 句 已 经 无 法 高 效 地 完成 人 些 任务 的 时 候 ， 这 里 我 们 将 介绍 
最 后 一 个 高 级 的 优化 技巧 。 当 你 需要 更 快 的 速度 ， 那 么 C 和 C++ 古 很 好 
的 选择 。 当 然 ， 你 需要 一 定 的 C 或 C++ 编程 技巧 ， 人 否则 你 写 的 程序 很 可 
能 会 让 服务 占 朋 沉 。 这 和 “能 力 越 强 ， 员 任 越 大 ”类 似 。 











我 们 将 在 下 一 章 为 你 展示 如 何 编写 一 个 用 户 自 定 义 函数 
CUDFs) ， 不 过 这 一 章 就 将 通过 一 个 案例 看 看 如 何 用 好 一 个 用 户 自 定 
义 函 数 。 有 一 个 客户 ， 在 项 目 中 需要 如 下 的 功能 : “我 们 需要 根据 两 个 
随机 的 64 位 数字 计算 它们 的 XOR 值 ， 来 看 两 个 数值 是 否 匹 配 。 大 约 有 
3500 万 条 的 记录 需要 在 秒 级 别 完成 。” 经 过 简单 的 计算 就 知道 ， 当 前 的 
硬件 条 件 下 ， 不 可 能 在 MySQL 中 完成 。 那 如 何 解决 这 个 问题 呢 ? 











问题 的 答案 是 使 用 Yves Trudeau 编 写 的 一 个 计算 程序 ， 这 个 程序 使 
用 SSE4.2 指 令 集 ， 以 一 个 后 台 程 序 的 方式 运行 在 通用 服务 器 上 ， 然 后 我 
们 编写 一 个 用 户 自 定义 函数 ， 通 过 简单 的 网 络 通信 协议 和 前 面 的 程序 进 
行 交互 。 





Yves 的 测试 表明 ， 分 布 式 运行 上 面 的 程序 ， 可 以 达到 在 130 坚 秒 内 
完成 4 百 万 次 匹配 计算 。 通 过 这 样 的 方式 ， 可 以 将 密集 型 的 计算 放 到 一 
些 通 用 的 服务 器 上 ， 同 时 可 以 对 外 界 完全 透明 ， 看 起 来 是 MySQL 完 成 
了 全 部 的 工作 。 正 如 他 们 在 Twitter 上 说 的 : # 太 好 了 ! 这 是 一 个 典型 的 
业务 优化 案例 ， 而 不 仅仅 是 优化 了 一 个 简单 的 技术 问题 。 


6.9 总结 


如 果 把 创建 高 性 能 应 用 程序 比 作 是 一 个 环 环 相 扣 的 “难题 ”， 除 了 前 
面 介绍 的 schema、 索 引 和 查询 语句 设计 之 外 ， 查 询 优 化 应 该 是 解 开 “ 难 
题 ” 的 最 后 一 步 了 。 要 想 写 一 个 好 的 查询 ， 你 必须 要 理解 schema 设 计 、 
索引 设计 等 ， 反 之 亦 然 。 








理解 得 询 是 如 何 补 执行 的 以 及 时 间 都 消耗 在 哪些 地 方 ， 这 依然 是 前 
面 我 们 介绍 的 啊 应 时 间 的 一 部 分 。 再 加 上 一 些 诸如 解析 和 优化 过 程 的 知 
识 ， 就 可 以 更 进一步 地 理解 上 一 章 讨论 的 MySQL 如 何 访问 表 和 索引 的 
内 容 了 。 这 也 从 为 一 个 维度 帮助 读者 理解 MySQL 在 访问 表 和 索引 时 便 
询 和 索引 的 关系 。 














优化 通常 都 需要 三 管 齐 下 : 不 做 、 少 做 、 快 速 地 做 。 我 们 希望 这 里 
的 案例 能 够 帮助 你 将 理论 和 实践 联系 起 来 。 





除了 这 些 基础 的 手段 ， 包 括 查 询 、 表 结构 、 索 引 等 ，MySQL 还 有 
一 些 高 级 的 特性 可 以 帮助 你 优化 应 用 ， 例 如 分 区 ， 分 区 和 索引 有 些 类 似 
但 是 原理 不 同 。MySQL 还 支持 查询 缓存 ， 它 可 以 帮 你 缓存 查询 结果 ， 
当 完 全 相同 的 查询 再 次 执行 时 ， 直 接 使 用 缓存 结果 〈 回 想 一 下 ,， “不 
HBC?) 。 我 们 将 在 下 一 章 中 介绍 这 些 特 性 。 























(1) 有 时 候 你 可 能 还 需要 修改 一 些 查 询 ， 减 少 这 些 碍 询 对 系统 中 运行 的 其 他 查询 的 影响 。 这 
种 情况 下 ， 你 是 在 减少 一 个 查询 的 资源 消耗 ， 这 我 们 在 第 3 章 已 经 讨论 过 。 
(2) 如 果 应 用 服务 器 和 数据 库 不 在 同一 台 主 机 上 ， 网 络 开 销 就 显得 很 明显 了 。 即 使 是 在 同一 




















台 服 务 器 上 仍然 会 有 数据 传输 的 开销 。 
(3) 更 多 内 容 请 参考 后 面 的 “优化 COUNTO 碍 询 ”。 
(4) 例如 关联 查询 结果 返回 的 一 条 记录 通常 是 由 多 条 记录 组 成 。 一 一 译 者 注 
(5) Percona Toolkit 中 的 pt-archiver 工 具 就 可 以 安全 而 简单 地 完成 这 类 工作 。 
(6) Query Cache。 译 者 注 
(7) 如 果 碍 询 太 大 ， 服 务 端 会 拒绝 接收 更 多 的 数据 并 抛 出 相应 错误 。 
(8) 你 可 以 使 用 SQL_BUFFER_RESULT， 后 面 将 再 介绍 这 点 。 
(9) 回忆 一 下 前 面 的 客户 端 和 服务 器 的 “ 传 球 ” 比 喻 。 一 一 译 者 注 
(10) 这 里 是 指 Query Cache。 一 一 译 者 注 


(11) Percona 版 本 的 MySQL 中 提供 了 一 个 新 的 特性 ， 可 以 在 计算 查询 语句 哈 希 值 时 ， 先 将 注 
释 移 除 再 算 哈 希 值 ， 这 对 于 不 同 注释 的 相同 查询 可 以 命中 相同 的 查询 缓存 结果 。 


(12) ”例如 ， 在 关联 操作 中 ， 范 围 检 查 的 执行 计划 会 针对 每 一 We 。 可 以 通过 
EXPLAIN 执 行 计划 中 的 Extra 列 是 否 有 “range checked for each record” 来 确认 这 一 点 。 该 执行 计划 
还 会 增加 select_full_range_join 这 个 服务 器 变量 的 值 。 


(13) 一 部 电影 没有 演员 ， 是 有 点 奇怪 。 不 过 在 示例 数据 库 Sakila 中 影片 SLACKER LIAISONS 
没有 任何 演员 ， 它 的 描述 是 “ 警 鱼 和 见识 过 中 国 古 代 鲁 鱼 的 学 生 的 简短 传说 ”。 


(14) join. 译 者 注 
(15) 后 面 我 们 会 看 到 MySQL 查 询 执 行 过 程 并 没有 这 人 么 简单 ，MySQL 做 了 很 多 优化 操作 。 


(16) MySQL 的 临时 表 是 没有 任何 索引 的 ， 在 编写 复杂 的 子 查 询 和 关联 查询 的 时 候 需 要 注意 
这 一 点 。 这 一 点 对 UN10N 查 询 也 一 样 。 


(17) 在 MySQL 5.6 和 MariaDB 中 有 了 重大 改变 ， 这 两 个 版 本 都 引入 了 更 加 复杂 的 执行 计划 。 

(18) MySQL 根 据 执行 计划 生成 输出 。 这 和 原 查 询 有 完全 相同 的 语义 ， 但 是 查询 语句 可 能 并 
不 完全 相同 。 

(19) 严格 来 说 ，MySQL 并 不 根据 读 取 的 记录 来 选择 最 优 的 执行 计划 。 实 际 上 ，MySQL 通 过 
预 估 需 要 读 取 的 数据 页 来 选择 ， 读 取 的 数据 页 越 少 越 好 。 不 过 读 取 的 记录 数 通 常 能 够 很 好 地 反 
映 一 个 查询 的 成 本 。 


(20) 查询 的 cost。 一 一 译 者 注 
(21) 内 存 。 一 一 译 者 注 


(22) 可 以 通过 一 些 办 法 来 影响 这 个 行为 一 一 例如 ， 我 们 可 以 使 用 SQL_BUFFER_RESULT。 
参考 后 面 的 “查询 优化 提示 >”。 


(23) 相当 于 Oracle 中 的 跳跃 索引 扫描 (skip index scan) 。 一 一 译 者 注 












































































































































































































































(24) 而 不 是 NULL。 一 一 译 者 注 

(25) 也 可 以 写成 这 样 的 SUM () 表达 式 : SUM (color='blue') , SUM (colo 
(26) 值得 一 提 的 是 ，MariaDB 修 复 了 这 个 限制 。 
(27) 翻 页 到 非常 靠 后 的 页 面 。 一 一 译 者 注 
(28) 在 某 些 场景 下 ， 也 可 以 直接 使 用 = 进行 赋值 ， 不 过 为 了 避免 歧义 ， 建 














We 














r='red') 。 


议 始终 使 用 :=。 


(29) 为 行文 方便 ， 后 面 在 不 引起 皮 义 的 情况 下 将 简称 为 “变量 *”。 一 一 译 者 注 
(30) 参考 http://mysqldump.azundris.com/archives/86-Down-the-dirty-road.html。 


(31) Baron 认 为 在 一 些 社交 网 站 上 归档 一 些 常 见 不 活跃 用 户 后 ， 用 户 重 新 






































回 到 网 站 时 有 这 样 








的 需求 ， 当 用 户 再 次 登录 时 ， 一 方面 我 们 需要 将 其 从 归档 中 重新 拿 出 来 ， 另 外 ， 还 可 以 给 他 发 
送 一 份 欢迎 邮件 。 这 对 一 些 不 活跃 的 用 户 是 非常 好 的 一 个 优化 。 在 第 11 章 我 们 还 会 再 次 讨论 这 























个 问题 。 


(32) 参考 http:/www.rabbitmq.com 和 和 http://gearman.org。 











(33) 要 想 有 更 多 的 优化 ， 你 可 以 将 三 角 函 数 的 计算 放 到 应 用 中 ， 而 不 要 在 数据 库 中 计算 。 








三 角 函 数 是 非常 消耗 CPU 的 操作 。 如 果 将 坐标 都 转换 成 弧度 存放 ， 则 对 数据 库 来 说 就 简化 了 很 














多 。 为 了 保证 我 们 的 案例 简单 ， 不 要 引入 太 多 别 的 因子 ， 所 以 这 里 我 们 将 不 上 
了 。 


(34) 
COS (RADIANS (38.03) ) 。 

















-区 


有 做 更 多 的 优化 








一次， 需要 使 用 应 用 程序 中 的 代码 来 计算 这 样 的 表达 式 


第 7 章 MySQL 高 级 特性 


MySQL 从 5.0 和 5.1 版 本 开始 引入 了 很 多 高 级 特性 ， 例 如 分 区 、 触 发 
器 等 ， 这 对 有 其 他 关系 型 数据 库 使 用 背景 的 用 户 来 说 可 能 并 不 卫生。 这 
些 新 特性 吸引 了 很 多 用 户 开始 使 用 MySQL。 不 过 ， 这 些 特性 的 性 能 到 
底 如 何 ， 还 需要 用 户 真 正 使 用 过 才能 知道 。 本 章 我 们 将 为 大 家 介绍 ， 在 
真实 的 世界 中 ， 这 些 特性 表现 如 何 ， 而 不 是 只 简单 地 介绍 参考 手册 或 者 
宣传 材料 上 的 数据 。 














71 分 区 表 


对 用 户 来 次 ， 分 区 表 是 一 个 独立 的 馆 辑 表 ， 但 是 底层 由 多 个 物理 子 
表 组 成 。 实 现 分 区 的 代码 实际 上 是 对 一 组 底层 表 的 句柄 对 象 (Handler 
Object) 的 封装 。 对 分 区 表 的 请 求 ， 都 会 通过 句柄 对 象 转化 成 对 存储 引 
擎 的 接口 调用 。 所 以 分 区 对 于 SQL 层 来 说 是 一 个 完全 封装 撒 层 实现 的 黑 
盒子 ， 对 应 用 是 透明 的 ， 但 是 从 后 层 的 文件 系统 来 看 束 很 容易 友 现 ， 每 
一 个 分 区 表 都 有 一 个 使 用 # 分 隔 命名 的 表 文 件 。 














MySQL 实 现 分 区 表 的 方式 一 一 对 底层 表 的 封装 一 一 意味 着 索引 也 
古 按照 分 区 的 子 表 定 义 的 ， 而 没有 全 局 索引 。 这 和 Oracle 不 同 ， 在 
Oracle 中 可 以 更 加 灵活 地 定义 索引 和 表 是 否 进行 分 区 。 








MySQL 在 创建 表 时 使 用 PARTITION ”BY 子 句 定义 每 个 分 区 存放 的 数 
据 。 在 执行 查询 的 时 候 ， 优 化 喜 会 根据 分 区 定义 过 涯 那些 没有 我 们 需要 
数据 的 分 区 ， 这 样 碍 询 就 无 须 扫描 所 有 分 区 一 一 只 需要 得 找 包含 珊 有 要 数 
据 的 分 区 就 可 以 了 。 











分 区 的 一 个 主要 目的 是 将 数据 按照 一 个 较 粗 的 粒度 分 在 不 同 的 表 
中 。 这 样 做 可 以 将 相关 的 数据 存放 在 一 起 ， 故 外， 如 果 想 一 次 批量 删除 
整个 分 区 的 数据 也 会 变 得 很 方便 。 


在 下 面 的 场景 中 ， 分 区 可 以 起 到 非常 大 的 作用 : 














。 表 非常 大 以 至 于 无 法 全 部 都 放 在 内 存 中 ， 或 者 只 在 表 的 最 后 部 分 有 
热点 数据 ， 其 他 均 是 历史 数据 。 
。 分 区 表 的 数据 更 容易 维护 。 例 如 ， 想 批量 删除 大 量 数据 可 以 使 用 清 





除 整个 分 区 的 方式 。 另 外 ， 还 可 以 对 一 个 独立 分 区 进行 优化 、 检 
查 、 修 复 等 操作 。 

。 分 区 表 的 数据 可 以 分 布 在 不 同 的 物理 设备 上 ， 从 而 高 效 地 利用 多 个 
便 件 设备 。 

。 可 以 使 用 分 区 表 来 避免 某 些 特殊 的 瓶 贷 ， 例 如 InnoDB 的 单个 索引 
的 互 斥 访问 、ext3 文 件 系统 的 inode 锁 竞争 等 。 

。 如 果 需 要 ， 还 可 以 备份 和 恢复 独立 的 分 区 ， 这 在 非常 大 的 数据 集 的 
场景 下 效果 非常 好 。 


MySQL 的 分 区 实现 非常 复杂 ， 我 们 不 打算 介绍 实现 的 全 部 细节 。 
这 里 我 们 将 专注 在 分 区 性 能 方面 ， 所 以 如 果 想 了 解 更 多 的 天 于 分 区 的 基 
础 知识 ， 我 们 建议 阅读 MYSQL 官方 手册 中 的 “分 区 ”一 节 ， 其 中 介绍 了 很 


多 分 区 相关 的 基础 知识 。 另 外 ， 还 可 以 阅读 CREATE TABLE, SHOW 
CREATE TABLE, ALTER  TABLEAI INFORMATION SCHEMA. PARTITIONS, 
EXPLAIN 关 于 分 区 部 分 的 介绍 。 分 区 特性 使 得 CREATE TABLE 和 ALTER 


TABLE 命 令 变 得 更 加 复杂 了 。 


分 区 表 本 身 也 有 一 些 限制 ， 下 面 是 其 中 比较 重要 的 几 点 : 





-个 表 最 多 只 能 有 1024 个 分 区 。 

在 MySQL 5.1 中 ， 分 区 表达 式 必须 是 整数 ， 或 者 是 返回 整数 的 表达 
式 。 在 MySQL 5.5 中 ， 某 些 场景 中 可 以 直接 使 用 列 来 进行 分 区 。 

如 有 果 分 区 字段 中 有 主键 或 者 唯一 索引 的 列 ， 那 么 所 有 主键 列 和 唯一 
索引 列 都 必须 包含 进来 。 

分 区 表 中 无 法 使 用 外 键 约束 。 


7.1.1 DAKKA JEE 











如 前 所 述 ， 分 区 表 由 多 个 相关 的 底层 表 实 现 ， 这 些 底 层 表 也 是 由 名 
柄 对 象 〈《Handler object) 表示 ， 上 所 以 我 们 也 可 以 直接 访问 各 个 分 区 。 存 
储 引 擎 管理 分 区 的 各 个 底层 表 和 管理 普通 表 一 样 〈 所 有 的 底层 表 都 必须 
使 用 相同 的 存储 引擎 ) ， 分 区 表 的 索引 只 是 在 各 个 底层 表 上 各 自 加 上 一 
个 完全 相同 的 索引 。 从 存储 引 苟 的 角度 来 看 ， 底 层 表 和 一 个 普通 表 没 有 
任何 不 同 ， 存 储 引 擎 也 无 须知 道 这 是 一 个 普通 表 还 是 一 个 分 区 表 的 一 部 


ie 




















TX ASE BR VET AP TAL BRE ea ET : 
SELECT 查询 


当 奏 询 一 个 分 区 表 的 时 候 ， 分 区 层 先 打开 并 锁 住 所 有 的 确 层 
表 ， 优 化 占 先 判断 是 否 可 以 过 小 部 分 分 区 ， 然 后 再 调用 对 应 的 存储 
引擎 接口 访问 各 个 分 区 的 数据 。 


INSERT 操 作 


当 写 入 一 条 记录 时 ， 分 区 层 完 打开 并 锁 住所 有 的 底层 表 ， 然 后 
确定 哪个 分 区 接收 这 条 记录 ， 再 将 记录 写 入 对 应 撒 层 表 。 





DELETE 操 作 


当 删 除 一 条 记录 时 ， 分 区 层 完 打开 并 锁 住所 有 的 底层 表 ， 然 后 
确定 数据 对 应 的 分 区 ， 最 后 对 相应 底层 表 进行 删除 操作 。 








UPDATE 操 作 


当 更 新 一 条 记录 时 ， 分 区 层 先 打开 并 锁 住 所 有 的 底层 表 ， 


MySQL 先 确定 需要 更 新 的 记录 在 哪个 分 区 ， 然 后 取出 数据 并 更 
新 ， 再 判断 更 新 后 的 数据 应 该 放 在 哪个 分 区 ， 最 后 对 感 层 表 进 行 写 
入 操作 ， 并 对 原 数 据 所 在 的 底层 表 进 行 删除 操作 。 











有 些 操 作 是 支持 过 滤 的 。 例 如 ， 当 删除 一 条 记录 时 ，MYySQL 需 要 
先 找 到 这 条 记录 ， 如 果 WHERE 条 件 恰 好 和 分 区 表达 式 匹 配 ， 束 可 以 将 所 
有 不 包含 这 条 记录 的 分 区 都 过 滤 掉 。 这 对 UPDATE 语 句 同样 有 效 。 如 果 是 
INSERT 操 作 ， 则 本 喘 就 是 只 命中 一 个 分 区 ， 其 他 分 区 都 会 被 过 滤 掉 。 
MySQL 先 确定 这 条 记录 属于 哪个 分 区 ， 再 将 记录 写 入 对 应 的 底层 分 区 
表 ， 无 须 对 任何 其 他 分 区 进行 操作 。 








虽然 每 个 操作 都 会 “* 先 打开 并 锁 住 所 有 的 底层 表 ”， 但 这 并 不 是 说 分 
区 表 在 处 理 过 程 中 是 锁 住 全 表 的 。 如 果 存 储 引 擎 能够 自己 实现 行 级 锁 ， 
例如 InnoDB， 则 会 在 分 区 层 释放 对 应 表 锁 。 这 个 加 锁 和 解锁 过 程 与 普 
通 InnoDB 上 的 查询 类 似 。 


后 面 我 们 会 通过 一 些 例子 来 看 看 ， 当 访问 一 个 分 区 表 的 时 候 ， 打 开 
和 锁 住所 有 底层 表 的 代价 及 其 带 来 的 后 果 。 


7.1.2 分 区 表 的 类 型 


MySQL 文 持 多 种 分 区 表 。 我 们 看 到 最 多 的 是 根据 范围 进行 分 区 ， 
每 个 分 区 存储 落 在 菏 个 范围 的 记录 ， 分 区 表达 式 可 以 是 列 ， 也 可 以 是 包 
含 列 的 表达 式 。 例 如 ， 下 表 就 可 以 将 每 一 年 的 销售 额 存 放 在 不 同 的 分 区 
Ee 








CREATE TABLE sales ( 


order_date DATETIME NOT NULL, 
- Other columns omitted 

) ENGINE=InnoDB PARTITION BY RANGE(YEAR(order_date)) ( 
PARTITION p_2010 VALUES LESS THAN (2010), 
PARTITION p_2011 VALUES LESS THAN (2011), 
PARTITION p_2012 VALUES LESS THAN (2012), 
PARTITION p_catchall VALUES LESS THAN MAXVALUE ); 


PARTITION 分 区 子 句 中 可 以 使 用 各 种 函数 。 但 有 一 个 要 求 ， 表 达 式 
返回 的 值 要 是 一 个 确定 的 整数 ， 且 不 能 是 一 个 常数 。 这 里 我 们 使 用 函 
数 YEAR () ， 也 可 以 使 用 任何 其 他 的 函数 ， 如 T0_DAYS O 。 根 据 时 间 间 陋 
进行 分 区 ， 是 一 种 很 常见 的 分 区 方式 ， 后 面 我 们 还 会 再 回 过 头 来 看 这 个 
例子 ， 看 看 如 何 优化 这 个 例子 来 避免 一 些 问题 。 





MySQL 还 文 持 键 值 、 哈 希 和 列表 分 区 ， 这 其 中 有 些 还 文 持 子 分 
区 ， 不 过 我 们 在 生产 环境 中 很 少见 到 。 在 MYSQL 5.5 中 ， 还 可 以 使 
用 RANGE ”COLUMNS 类 型 的 分 区 ， 这 样 即使 是 基于 时 间 的 分 区 也 无 须 再 将 
其 转化 成 一 个 整数 ， 后 面 将 详细 介绍 。 





在 我 们 看 过 的 一 个 子 分 区 的 案例 中 ， 对 一 个 类 似 于 前 面 我 们 设计 的 
按时 间 分 区 的 InnoDB 表 ， 系 统 通 过 子 分 区 可 降低 索引 的 互 斥 访问 的 苋 
争 。 最 近 一 年 的 分 区 的 数据 会 被 非常 频 楷 地 访问 ， 这 会 导致 大 量 的 互 斥 
量 的 竞争 。 使 用 哈 希 子 分 区 可 以 将 数据 切 成 多 个 小 片 ， 大 大 降低 互 斥 量 


的 竞争 问题 。 





我 们 还 看 到 的 一 些 其 他 的 分 区 技术 包括 : 
。 根据 键 值 进行 分 区 ， 来 减少 InnoDB 的 互 帮 量 苋 争 。 


。 使 用 数学 模 函 数 来 进行 分 区 ， 然 后 将 数据 轮 询 放 入 不 同 的 分 区 。 例 
如 ， 可 以 对 日 期 做 模 7 的 运算 ， 或 者 更 简单 地 使 用 返回 周 几 的 函 
数 ， 如 果 只 想 保留 最 近 几 天 的 数据 ， 这 样 分 区 很 方便 。 

假设 表 有 一 个 自 增 的 主键 列 id， 和 希望 根据 时 间 将 最 近 的 热点 数据 集 
中 存放 。 那 么 必须 将 时 间 戳 包含 在 主键 当中 才 行 ， 而 这 和 主键 本 身 
的 意义 相 矛 盾 。 这 种 情况 下 也 可 以 使 用 这 样 的 分 区 表达 式 来 实现 相 
同 的 目的 ， HASH Cid DIV 1000000) ， 这 将 为 100 万 数据 建立 一 个 
分 区 。 这 样 一 方面 实现 了 当初 的 分 区 目的 ， 另 一 方面 比 起 使 用 时 间 
范围 分 区 还 避免 了 一 个 问题 ， 就 是 当 超 过 一 定 阐 值 时 ， 如 果 使 用 时 
间 范 围 分 区 就 必须 新 增 分 区 。 


7.1.3 ”如 何 使 用 分 区 表 


假设 我 们 希望 从 一 个 非常 大 的 表 中 得 询 出 一 段 时 间 的 记录 ， 而 这 个 
表 中 包含 了 很 多 年 的 历史 数据 ， 数 据 是 按照 时 间 排 序 的 ， 例 如 ， 和 希望 碍 
询 最 近 几 个 月 的 数据 ， 这 大 约 有 10 亿 条 记录 。 可 能 过 些 年 本 书 会 过 时 ， 
不 过 我 们 还 是 假设 使 用 的 是 2012 年 的 便 件 设备 ， 而 原 表 中 有 10TB 的 数 
据 ， 这 个 数据 量 远大 于 内 存 ， 并 且 使 用 的 是 传统 和 硬盘， 不 是 内 存 〈 多 数 
SSD 也 没有 这 么 大 的 空间 ) 。 你 打算 如 何 碍 询 这 个 表 ? 如 何 才能 更 高 


效 ? 


























首先 很 肯定 : 因为 数据 量 巨大 ， 肯 定 不 能 在 每 次 查询 的 时 候 都 扫描 
全 表 。 考 虑 到 索引 在 空间 和 维护 上 的 消耗 ， 也 不 布 望 使 用 索引 。 即 使 真 








量 的 碎片 产生 ， 最 终 会 导致 一 个 查询 产生 成 于 上 万 的 随机 IO， 应 用 程 
序 也 随 之 僵 死 。 情 况 好 一 点 的 时 候 ， 也 许可 以 通过 一 两 个 索引 解决 一 些 








问题 。 不 过 多 数 情 况 下 ， 索 引 不 会 有 任何 作用 。 这 时 候 只 有 两 条 路 可 
选 : 让 所 有 的 查询 都 只 在 数据 表 上 做 顺序 扫描 ， 或 者 将 数据 表 和 索引 全 
部 都 缓存 在 内 存 里 。 











这 里 需要 再 陈述 一 过: 在 数据 量 超大 的 时 候 ，B-Tree 索 引 就 无 法 起 
作用 了 。 除 非 是 索引 用 盖 查 询 ， 否 则 数据 库 服务 器 需要 根据 索引 扫描 的 
结果 回 表 ， 查 询 所 有 符合 条 件 的 记录 ， 如 果 数 据 量 巨大 ， 这 将 产生 大 量 
随机 WO， 随 之 ， 数 据 库 的 响应 时 间 将 大 到 不 可 接受 的 程度 。 男 外 ， 索 
引 维 护 〔 磁 盘 空 间 、1O 操 作 〉 的 代价 也 非常 高 。 有 些 系 统 ， 如 
Infobright， 意 识 到 这 一 点 ， 于 是 就 完全 放弃 使 用 B-Tree 索 引 ， 而 选择 了 
一 些 更 粗 粒度 的 但 消耗 更 少 的 方式 检索 数据 ， 例 如 在 大 量 数据 上 只 索引 
对 应 的 一 小 块 元 数据 。 


























这 正 是 分 区 要 做 的 事情 。 理 解 分 区 时 还 可 以 将 其 当 作 索引 的 最 初 形 
态 ， 以 代价 非常 小 的 方式 定位 到 需要 的 数据 在 哪 一 片 “区 域 "。 在 这 
片 “ 区 域 ?" 中 ， 你 可 以 做 顺序 扫描 ， 可 以 建 索 引 ， 还 可 以 将 数据 都 缓存 到 
内 存 ， 等 等 。 因 为 分 区 无 须 额 外 的 数据 结构 记录 每 个 分 区 有 哪些 数据 
一 一 分 区 不 需要 精确 定位 每 条 数据 的 位 置 ， 也 惑 无 须 额 外 的 数据 结构 
一 一 所 以 其 代价 非常 低 。 只 需要 一 个 简单 的 表达 式 束 可 以 表达 每 个 分 区 
存放 的 是 什么 数据 。 











为 了 保证 大 数据 量 的 可 扩展 性 ， 一 般 有 下 面 两 个 朱 略 : 


全 量 扫描 数据 ， 不 要 任何 索引 。 








可 以 使 用 简单 的 分 区 方式 存放 表 ， 不 要 任何 索引 ， 根 据 分 区 的 
规则 大 致 定位 需要 的 数据 位 置 。 只 要 能 够 使 用 WHERE 条 件 ， 将 需要 
的 数据 限制 在 少数 分 区 中 ， 则 效率 是 很 高 的 。 当 然 ， 也 需要 做 一 些 





简单 的 运算 保证 查询 的 啊 应 时 间 能 够 满足 需求 。 使 用 该 条 上 略 假设 不 
用 将 数据 完全 放 入 到 内 存 中 ， 同 时 还 假设 需要 的 数据 全 都 在 磁盘 
上 上 ， 因 为 内 存 相 对 很 小 ， 数 据 很 快 会 被 挤 出 内 存 ， 所 以 缓存 起 不 了 
任何 作用 。 这 个 策略 适用 于 以 正常 的 方式 访问 大 量 数据 的 时 候 。 警 
告 : 后 面 我 们 会 详细 解释 ， 必 须 将 得 询 需要 扫描 的 分 区 个 数 限制 在 
一 个 很 小 的 数量 。 








索引 数据 ， 并 分 离 热点 。 


如 果 数 据 有 明显 的 “热点 ”而 且 除 了 这 部 分 数据 ， 其 他 数据 很 少 
被 访问 到 ， 那 么 可 以 将 这 部 分 热点 数据 单独 放 在 一 个 分 区 中 ， 让 这 
个 分 区 的 数据 能 够 有 机 会 都 缓存 在 内 存 中 。 这 样 查 询 束 可 以 只 访问 
一 个 很 小 的 分 区 表 ， 能 够 使 用 索引 ， 也 能 够 有 效 地 使 用 绥 存 。 








仅仅 知道 这 些 还 不 够 ，MySQL 的 分 区 表 实 现 还 有 很 多 陷阱 。 下 面 
我 们 看 看 都 有 哪些 ， 以 及 如 何 避 免 。 


7.1.4 什么 情况 下 会 出 问题 


上 面 我 们 介绍 的 两 个 分 区 集 略 部 基于 两 个 非常 重要 的 假设 查询 都 
能 够 过 滤 Cprunning) 掉 很 多 额外 的 分 区 、 分 区 本 身 并 不 会 带 来 很 多 额 
外 的 代价 。 而 事实 证 明 ， 这 两 个 假设 在 茶 些 场景 下 会 有 问题 。 下 面 介绍 
一 些 可 能 会 遇 到 的 问题 。 











NULL 值 会 使 分 区 过 滤 无 效 


关于 分 区 表 一 个 容易 让 人 误解 的 地 方 就 是 分 区 的 表达 式 的 值 可 


以 是 NULL: 第 一 个 分 区 是 一 个 特殊 分 区 。 假 设 按照 PARTITION BY 
RANGE YEAR (order_date) 分 区 ， 那 么 所 有 order_date 为 NULL 或 者 
是 一 个 非法 值 的 时 候 ， 记 录 都 会 被 存放 到 第 一 个 分 区 由。 现在 假设 
有 下 面 的 查询 : WHERE order_date BETWEEN '2012-01-01' AND 
'2012-01-31' 。 实 际 上 ，MySQL 会 检查 两 个 分 区 ， 而 不 是 之 前 猜 
想 的 一 个 : 它 会 检查 2012 年 这 个 分 区 ， 同 时 它 还 会 检查 这 个 表 的 第 
一 个 分 区 。 检 查 第 一 个 分 区 是 因为 YEAR 0 函数 在 接收 非法 值 的 时 候 
可 能 会 返回 NULL 值 ， 那 么 这 个 范围 的 值 可 能 会 返回 NULL 而 被 存放 到 
第 一 个 分 区 了 。 这 一 点 对 于 其 他 很 多 函数 ， 例 如 T0_DAYS 0 也 一 
Fre B 


如 果 第 一 个 分 区 非常 大 ， 特 别 是 当 使 用 “全 量 扫描 数据 ， 不 要 
任何 索引 ”的 集 略 时 ， 代 价 会 非常 大 。 而 且 扫 描 两 个 分 区 来 查找 列 
也 不 是 我 们 使 用 分 区 表 的 初衷 。 为 了 避免 这 种 情况 ， 可 以 创建 一 
个 “无 用 ”的 第 一 个 分 区 ， 例 如 ， 上 面 的 例子 中 可 以 使 用 PARTITION 
p_nulls VALUES LESS THAN (0) 来 创建 第 一 个 分 区 。 如 果 插 入 表 
中 的 数据 都 是 有 效 的 ， 那 么 第 一 个 分 区 束 是 空 的 ， 这 样 即 使 需要 检 
测 第 一 个 分 区 ， 代 价 也 会 非常 小 。 





在 MySQL 5.5 中 就 不 需要 这 个 优化 技巧 了 ， 因 为 可 以 直接 使 用 
列 本 里 而 不 是 基于 列 的 函数 进行 分 区 : PARTITION BY RANGE 
COLUMNS (order_date) 。 所 以 这 个 案例 最 好 的 解决 方法 是 能 够 直 
接 使 用 MySQL 5.5 的 这 个 语法 。 





分 区 列 和 索引 列 不 匹配 


如 果 定 义 的 索引 列 和 分 区 列 不 匹配 ， 会 导致 得 询 无 法 进行 分 区 
过 滤 。 假 设 在 列 a 上 定义 了 索引 ， 而 在 列 b 上 进行 分 区 。 因 为 每 个 分 








区 都 有 其 独立 的 索引 ， 所 以 扫描 列 b 上 的 索引 就 需要 扫描 每 一 个 分 
区 内 对 应 的 索引 。 如 果 每 个 分 区 内 对 应 索引 的 非 叶 子 节 点 都 在 内 存 
中 ， 那 么 扫描 的 速度 还 可 以 接受 ， 但 如 果 能 跳 过 茶 些 分 区 索引 当然 
会 更 好 。 和 要 避免 这 个 问题 ， 应 该 避免 建立 和 分 区 列 不 匹配 的 索引 ， 
除非 但 询 中 还 同时 包含 了 可 以 过 小 分 区 的 条 件 。 














听 起 来 避免 这 个 问题 很 简单 ， 不 过 有 时 候 也 会 遇 到 一 些 意 想 不 
到 的 问题 。 例 如 ， 在 一 个 关联 得 询 中 ， 分 区 表 在 关联 顺序 中 是 第 二 
个 表 ， 并 且 关 联 使 用 的 索引 和 分 区 条 件 并 不 匹配 。 那 么 关联 时 针对 
第 一 个 表 符 合 条 件 的 每 一 行 ， 都 需要 访问 并 搜索 第 二 个 表 的 所 有 分 





如 前 所 述 分 区 有 很 多 类 型 ， 不 同类 型 分 区 的 实现 方式 也 不 同 ， 
所 以 它们 的 性 能 也 各 不 相同 。 尤 其 是 范围 分 区 ， 对 于 回答 “这 一 行 
属于 哪个 分 区 ”、“ 这 些 符合 查询 条 件 的 行 在 哪些 分 区 ”这 样 的 问题 
的 成 本 可 能 会 非 第 蜗 ， 因 为 服务 器 需要 扫描 所 有 的 分 区 定义 的 列表 
来 找到 正确 的 答案 。 类 似 这 样 的 线性 搜索 的 效率 不 局 ， 所 以 随 着 分 
区 数 的 增长 ， 成 本 会 越 来 越 高 。 





我 们 所 实际 碰 到 的 类 似 这样 的 最 糟糕 的 一 次 问题 是 按 行 写 入 大 
量 数据 的 时 候 。 每 写 入 一 行 数据 到 范围 分 区 的 表 时 ， 都 需要 扫描 分 
区 定义 列表 来 找到 合适 的 目标 分 区 。 可 以 通过 限制 分 区 的 数量 来 绥 
解 此 问题 ， 根 据 实践 经验 ， 对 大 多 数 系统 来 说 ，100 个 左右 的 分 区 


征 没 有 问题 的 。 








其 他 的 分 区 类 型 ， 比 如 键 分 区 和 哈 硕 分 区 ， 则 没有 这 样 的 问 


jel 


打开 并 锁 住 所 有 底层 表 的 成 本 可 能 很 高 


当 查 询 访 问 分 区 表 的 时 候 ，MySQL 需 要 打开 并 锁 住 所 有 的 底 
层 表 ， 这 是 分 区 表 的 另 一 个 开销 。 这 个 操作 在 分 区 过 滤 之 前 发 生 ， 
所 以 无 法 通过 分 区 过 滤 降 低 此 开销 ， 并 且 该 开销 也 和 分 区 类 型 无 
关 ， 会 影响 所 有 的 查询 。 这 一 点 对 一 些 本 身 操作 非常 快 的 查询 ， 比 
如 根据 主键 查找 单行 ， 会 带 来 明显 的 额外 开销 。 可 以 用 批量 操作 的 
方式 来 降低 单个 操作 的 此 类 开销 ， 例 如 使 用 批量 插入 或 者 LOAD 
DATA INFILE、 一 次 删除 多 行 数据 ， 等 等 。 当 然 同 时 还 是 需要 限制 
分 区 的 个 数 。 








维护 分 区 的 成 本 可 能 很 高 


某 些 分 区 维护 操作 的 速度 会 非常 快 ， 例 如 新 增 或 者 删除 分 区 
( 当 删 除 一 个 大 分 区 可 能 会 很 慢 ， 不 过 这 是 为 一 回 事 ) 。 而 有 些 操 
作 ， 例 如 重组 分 区 或 者 类 似 ALTER 语 句 的 操作 : 这 类 操作 需要 复 
制 数据 。 重 组 分 区 的 原理 与 ALTER 类 似 ， 先 创建 一 个 临时 的 分 区 ， 
然后 将 数据 复制 到 其 中 ， 最 后 再 删除 原 分 区 。 





如 上 上 所 述 ， 分 区 表 不 是 什么 “ 银 弹 ”。 下 面 是 目前 分 区 实现 中 的 一 些 
其 他 限制 : 


。 所 有 分 区 都 必须 使 用 相同 的 存储 引擎 。 

。 分 区 函数 中 可 以 使 用 的 函数 和 表达 式 也 有 一 些 限制 。 

0 东 些 存储 引擎 不 文 持 分 区 。 

。 对 于 MyISAM 的 分 区 表 ， 不 能 再 使 用 LOAD INDEX INTO CACHE 操 





作 。 

。 对 于 MyISAM 表 ， 使 用 分 区 表 时 需要 打开 更 多 的 文件 描述 符 。 虽 然 
看 起 来 是 一 个 表 ， 其 实 背 后 有 很 多 独立 的 分 区 ， 每 一 个 分 区 对 于 存 
储 引 擎 来 说 都 是 一 个 独立 的 表 。 这 样 即使 分 区 表 只 占用 一 个 表 缓 存 
条 目 ， 文 件 描述 符 还 是 需要 多 个 。 因 此 ， 即 使 已 经 配置 了 合适 的 表 
缓存 ， 以 确保 不 会 超过 操作 系统 的 单个 进程 可 以 打开 的 文件 描述 符 
的 个 数 ， 但 对 于 分 区 表 而 言 ， 还 是 会 出 现 超过 文件 描述 符 限 制 的 问 


jel 














最 后 ， 需 要 指出 的 是 较 老 版 本 的 MySQL 问题 会 更 多 些 。 所 有 的 软 
件 都 是 有 bug 的 。 分 区 表 在 MySQL ”5.1 中 引入 ， 在 后 面 的 5.1.40 和 5.1.50 
之 后 修复 了 很 多 分 区 表 的 bug。 在 MySQL 5.5 中 ， 分 区 表 又 做 了 很 多 改 
进 ， 这 才 使 得 分 区 表 可 以 逐步 考虑 用 在 生产 环境 了 。 在 即将 发 布 的 
MySQL 5.6 版 本 中 ， 分 区 表 做 了 更 多 的 增强 ， 例 如 新 引入 的 ALTER 
TABLE EXCHANGE PARTITION。 


7.1.5 查询 优化 


引入 分 区 给 但 询 优 化 市 来 了 一 些 新 的 思路 (同时 也 带 来 新 的 
bug) 。 分 区 最 大 的 优点 就 是 优化 器 可 以 根据 分 区 函数 来 过 滤 一 些 分 
区 。 根 据 粗 粒度 索引 的 优势 ， 通 过 分 区 过 小 通常 可 以 让 人 查询 扫 揪 更 少 的 
数据 (在 某 些 场 景 下 )。 

















所 以 ， 对 于 访问 分 区 表 来 说 ， 很 重要 的 一 点 是 要 在 WHERE 条 件 中 带 
入 分 区 列 ， 有 时 候 即 使 看 似 多 余 的 也 要 带 上 ， 这 样 就 可 以 让 优化 右 能 够 
过 滤 掉 无 须 访 问 的 分 区 。 如 果 没 有 这 些 条 件 ，MySQL 就 需要 让 对 应 存 
储 引 擎 访问 这 个 表 的 所 有 分 区 ， 如 果 表 非常 大 的 话 ， 就 可 能 会 非常 慢 。 





使 用 EXPLAIN ”PARTITION 可 以 观察 优化 器 是 否 执行 了 分 区 过 滤 ， 下 
面 是 一 个 示例 : 


mysql> EXPLAIN PARTITIONS SELECT * FROM sales \G 
FOI III ICICI IO IO III J, pow III II III A ak 
id: 1 
select_type: SIMPLE 
table: sales_by_day 
partitions: p_2010,p_2011,p_2012 
type: ALL 
possible_keys: NULL 
key: NULL 
key_len: NULL 


ref: NULL 
rows: 3 
Extra: 


正如 你 所 看 到 的 ， 这 个 查询 将 访问 所 有 的 分 区 。 下 面 我 们 在 WHERE 
条 件 中 再 加 入 一 个 时 间 限 制 条 件 : 


mysql> EXPLAIN PARTITIONS SELECT * FROM sales by day WHERE da 
FOI ICICI ICI IO IO III J, pow FI IO IOI TI IOI A ak 
id: 1 
select_type: SIMPLE 
table: sales_by_day 


partitions: p_2011,p_2012 





MySQL 优 化 器 已 经 很 善于 过 滤 分 区 。 比 如 它 能 够 将 范围 条 件 转化 





AVA BLA UZ, FPR GEIS BEM aX. PAT, MAAE tA 
是 万 能 的 。 下 面 查 询 的 WHERE 条 件 理论 上 可 以 过 滤 分 区 ， 但 实际 上 却 不 
47: 





mysql> EXPLAIN PARTITIONS SELECT * FROM sales_by_day WHERE YE. 
FO IOI CII IOI IO ICI ICI II J. pow RII IR IR IA A A I Rk 
id: 1 
select_type: SIMPLE 
table: sales_by_day 
partitions: p_2010,p_2011,p_2012 


MySQL 只 能 在 使 用 分 区 函数 的 列 本 身 进行 比较 时 才能 过 滤 分 区 ， 
而 不 能 根据 表达 式 的 值 去 过 滤 分 区 ， 即 使 这 个 表达 式 就 是 分 区 函数 也 不 
行 。 这 就 和 查询 中 使 用 独立 的 列 才能 使 用 索引 的 道理 是 一 样 的 (参考 第 
5 章 的 相关 内 容 ) 。 所 以 只 需要 把 上 面 的 查询 等 价 地 改写 为 如 下 形式 即 
T: 





mysql> EXPLAIN PARTITIONS SELECT * FROM sales_by_day 
-> WHERE day BETWEEN '2010-01-01' AND '2010-12-31'\G 
FOO IORI IOI IO ICI III I J. pow RII IR RR kkk kkk 
id: 1 
select_type: SIMPLE 
table: sales_by_day 


partitions: p_2010 








这 里 写 的 WHERE 条 件 中 带 入 的 是 分 区 列 ， 而 不 是 基于 分 区 列 的 表 
达 式 ， 所 以 优化 器 能 够 利用 这 个 条 件 过 小 部 分 分 区 。 一 个 很 重要 的 原则 
ye: 即便 在 创建 分 区 时 可 以 使 用 表达 式 ， 但 在 查询 时 却 只 能 根据 列 来 过 








优化 器 在 处 理 查 询 的 过 程 中 总 是 尽 可 能 聪明 地 去 过 滤 分 区 。 例 如 ， 
Aa) IX AEE ER VE IB KR, AK eo KBE, MySQL 
只 会 在 对 应 的 分 区 里 匹配 行 。 (EXPLAIN 无 法 显示 这 种 情况 下 的 分 区 过 
滤 ， 因 为 这 是 运行 时 的 分 区 过 滤 ， 而 不 是 查询 优化 阶段 的 。) 





合并 表 (Merge table) 是 一 种 早期 的 、 简 单 的 分 区 实现 ， 和 分 区 表 
相 比 有 一 些 不 同 的 限制 ， 并 且 缺 乏 优化 。 分 区 表 严 格 来 说 是 一 个 多 辑 上 
的 概念 ， 用 户 无 法 访问 底层 的 各 个 分 区 ， 对 用 户 来 说 分 区 是 透明 的 。 但 
是 合并 表 人 允许 用 户 单 独 访问 各 个 子 表 。 分 区 表 和 优化 器 的 结合 更 紧密 ， 
这 也 和 古 未 来 发 展 的 趋势 ， 而 合并 表 则 是 一 种 将 被 淘汰 的 技术 ， 在 未 来 的 
版 本 中 可 能 被 删除 。 











和 分 区 表 类 似 的 是 ， 在 MyISAM 中 各 个 子 表 可 以 被 一 个 结构 完全 相 
同 的 逻辑 表 所 封装 。 可 以 简单 地 把 这 个 表 当 作 一 个 “ 老 的 、 早 期 的 、 功 
能 有 限 的 ”的 分 区 表 ， 因 为 它 自 身 的 特性 ， 甚 至 可 以 提供 一 些 分 区 表 没 
AN De®. 











合并 表 相 当 于 一 个 容 费 ， 里 面包 含 了 多 个 真实 表 。 可 以 在 CREATE 
TABLE 中 使 用 一 种 特别 的 UN10N 语 法 来 指定 包含 哪些 真实 表 。 下 面 是 一 个 
创建 合并 表 的 例子 : 











mysql> CREATE TABLE t1(a INT NOT NULL PRIMARY KEY)ENGINE=MyISAM; 
mysql> CREATE TABLE t2(a INT NOT NULL PRIMARY KEY)ENGINE=MyISAM; 
mysql> INSERT INTO t1(a) VALUES(1),(2); 
mysql> INSERT INTO t2(a) VALUES(1),(2); 
mysql> CREATE TABLE mrg(a INT NOT NULL PRIMARY KEY) 

-> ENGINE=MERGE UNION=(t1, t2) INSERT _METHOD=LAST; 








注意 到 ， 这 里 最 后 建立 的 合并 表 和 前 面 的 各 个 真实 表 字段 完全 相 
同 ， 在 合并 表 中 有 的 索引 各 个 真实 子 表 也 有 ， 这 是 创建 合并 表 的 前 提 条 
件 。 另 外 还 注意 到 ， 各 个 子 表 在 对 应 列 上 都 有 主键 限制 ， 但 是 最 终 的 合 
并 表 中 仍然 出 现 了 重复 值 ， 这 是 合并 表 的 另 一 个 不 足 : 合并 表 中 的 每 一 
个 子 表 行为 和 表 定 义 都 是 相同 ， 但 是 合并 表 在 全 局 上 并 不 受 这 些 条 件 限 
制 |。 











这 里 的 语法 INSERT_METHOD=LAST 告 诉 MySQL， 将 所 有 的 1NSERT 语 
句 都 发 送 给 最 后 一 个 表 。 指 定 FIRST 或 者 LAST 关 键 字 是 唯一 可 以 控制 行 
插入 到 合并 表 的 哪 一 个 子 表 的 方式 〈 当 然 ， 还 是 可 以 直接 在 SQL 中 明确 
地 操作 任何 一 个 子 表 ) 。 而 分 区 表 则 有 更 多 的 方式 可 以 控制 数据 写 入 到 
哪 一 个 子 表 中 。 














INSERT 语 名 的 执行 结果 可 以 在 最 终 的 合并 表 中 看 到 ， 也 可 以 在 对 应 
的 子 表 中 看 到 : 


mysql> INSERT INTO mrg(a) VALUES(3); 


mysql> SELECT a FROM t2; 
+---+ 


合并 表 还 有 些 有 趣 的 限制 和 特性 ， 例 如 ， 在 删除 合并 表 或 者 删除 一 
个 子 表 的 时 候 会 怎样 ? 删除 一 个 合并 表 ， 它 的 子 表 不 会 受 任何 影响 ， 而 
如 末 和 直接 删除 其 中 一 个 子 表 则 可 能 会 有 不 同 的 后 果 ， 这 要 视 操 作 系 统 而 
定 。 例 如 在 GNU/Linuxz 上 ， 如 果子 表 的 文件 描述 还 是 被 打开 的 状态 ， 那 
么 这 个 表 还 存在 ， 但 是 只 能 通过 合并 表 才 能 访问 到 : 








mysql> DROP TABLE t1, t2; 
mysql> SELECT a FROM mrg; 
+------+ 


+------+ 


+------+ 





合并 表 还 有 很 多 其 他 的 限制 和 行为 ， 下 面 列举 的 这 几 点 需要 在 使 用 
的 时 候 时 刻 记 住 。 


。 在 使 用 CREATE 语 句 创 建 一 个 合并 表 的 时 候 ， 并 不 会 检查 各 个 子 表 的 
兼容 性 。 如 果子 表 的 定义 稍 有 人 不同， 那么 MySQL 就 可 能 创建 出 一 
个 后 面 无 法 使 用 的 合并 表 。 另 外 ， 如 有 果 在 成 功 创建 了 合并 表 后 再 修 
改 某 个 子 表 的 定义 ， 那 么 之 后 再 使 用 合并 表 可 能 会 看 到 这 样 的 报 
错 : ERROR 1168 (HY000):Unable to open underlying table which is 
differently defined or of non-MyISAM type or doesn't exist. 
根据 合并 表 的 特性 ， 不 难 发 现 ， 在 合并 表 上 无 法 使 用 REPLACE 语 
法 ， 无 法 使 用 自 增 字段 。 更 多 的 细节 请 参阅 MySQL 官 方 手册 。 

如 果 一 个 查询 访问 合并 表 ， 那 么 它 需 要 访问 所 有 子 表 。 这 会 让 根据 
键 查找 单行 的 查 y 询 速度 变 慢 ， 如 果 能 够 只 访问 一 个 对 应 表 ， 速 度 
肯定 将 更 快 。 所以， 限制 合并 表 中 的 子 表 数量 很 重要 ， 特 别 是 当 合 
并 表 是 茶 个 关联 碍 询 的 一 部 分 的 时 候 ， 因 为 这 时 访问 一 个 表 的 记录 
数 可 能 会 将 比较 操作 传递 到 关联 的 其 他 表 中 ， 这 时 减少 记录 的 访问 























就 是 减少 整个 关联 操作 。 当 你 打算 使 用 合并 表 的 时 候 ， 还 需要 记 住 
LAR Usk: 


执行 范围 查询 时 ， 需 要 在 每 一 个 子 表 上 各 执行 一 次 ， 这 比 直接 访问 
单个 表 的 性 一 能 要 差 很 多 ， 而 且 子 表 越 多 ， 人 性 能 越 粳 。 

全 表 扫 描 和 普通 表 的 全 表 扫 描 速 度 相同 。 

在 合并 表 上 做 唯一 键 和 主键 查询 时 ， 一 旦 找到 一 行 数据 就 会 停止。 
所 以 一 旦 碍 一 询 在 合并 表 的 某 一 个 子 表 中 找到 一 行 数 据 ， 就 会 立刻 
返回 ， 不 会 再 访问 任何 其 他 的 表 。 

子 表 的 读 取 顺序 和 CREATE _ TABLE 语句 中 的 顺序 相同 。 如 果 需 要 频繁 
地 按照 某 个 特定 顺序 访问 表 ， 那 么 可 以 通过 这 个 特性 来 让 合并 排序 
操作 更 高 效 。 























因为 合并 表 的 各 个 子 表 可 以 直接 被 访问 ， 所 以 它 还 具有 一 些 
MySQL 5.5 分 区 所 不 能 提供 的 特性 : 








一 个 MyISAM 表 可 以 是 多 个 合并 表 的 子 表 。 

可 以 通过 直接 复制 y.frm、.MYI、.MYD 文 件 ， 来 实现 在 不 同 的 服务 
器 之 间 复 制 各 个 子 表 。 

在 合并 表 中 可 以 很 容易 地 添加 新 的 子 表 : 直接 修改 合并 表 的 定义 就 
AUT. 

可 以 创建 一 个 合并 表 ， 让 它 只 包含 需要 的 数据 ， 例 如 只 包含 某 个 时 
间 段 的 数据 ， 而 在 分 区 表 中 是 做 不 到 这 一 点 的 。 

如 果 想 对 某 个 子 表 做 备份 、 恢 复 、 修 改 、 修 复 或 者 别 的 操作 时 ， 可 
以 先 将 其 从 合并 表 中 删除 ， 操 作 结束 后 再 将 其 加 回去 。 

可 以 使 用 myisampack 来 压缩 所 有 的 子 表 。 














相反 ， 分 区 表 的 子 表 都 是 被 MySQL 隐 藏 的 ， 只 能 通过 分 区 表 去 访 


HTK. 


7.2 视图 


MySQL 5.0 版 本 之 后 开始 引入 视图 。 视 图 本 身 是 一 个 虚拟 表 ， 不 存 
放任 何 数据 。 在 使 用 SQL 语句 访问 视图 的 时 候 ， 它 返回 的 数据 是 MySQL 
从 其 他 表 中 生成 的 。 视 图 和 表 是 在 同一 个 命名 空间 ，MySQL 在 很 多 地 
方 对 于 视图 和 表 是 同样 对 待 的 。 不 过 视图 和 表 也 有 不 同 ， 例 如 ， 不 能 对 
视图 创建 触发 器 ， 也 不 能 使 用 DROP TABLE 命 令 删除 视图 。 





在 MySQL 官 方 手册 中 对 如 何 创 建 和 使 用 视图 有 详细 的 介绍 ， 本 书 
不 会 详细 介绍 这 些 。 我 们 将 主要 介绍 视图 是 如 何 实现 的 ， 以 及 优化 器 如 
何 处 理 视图 ， 通 过 了 解 这 些 ， 和 希望 可 以 让 大 家 在 使 用 视图 时 获得 更 高 的 
性 能 。 我 们 将 使 用 示例 数据 库 wor 1d 来 演示 视图 是 如 何 工作 的 : 





mysql> CREATE VIEW Oceania AS 
-> SELECT * FROM Country WHERE Continent = 'Oceania' 


-> WITH CHECK OPTION; 
实现 视图 最 简单 的 方法 是 将 SELECT 语句 的 结果 存放 到 临时 表 中 。 当 
需要 访问 视图 的 时 候 ， 直 接 访 问 这 个 临时 表 就 可 以 了 。 我 们 先 来 看 看 下 
面 的 查询 : 





mysql> SELECT Code, Name FROM Oceania WHERE Name = 'Australia 


下 面 是 使 用 临时 表 来 模拟 视图 的 方法 。 这 里 临时 表 的 名 字 古 为 演示 
用 的 : 


mysql> CREATE TEMPORARY TABLE TMP_Oceania_123 AS 


-> SELECT * FROM Country WHERE Continent = 'Oceania'; 


mysql> SELECT Code, Name FROM TMP_Oceania_123 WHERE Name = 'A 


这 样 做 会 有 明显 的 性 能 问题 ， 优 化 器 也 很 难 优化 在 这 个 临时 表 上 的 
查询 。 实 现 视图 更 好 的 方法 是 ， 重 写 含 有 视图 的 查询 ， 将 视图 的 定义 
SQL 直接 包含 进 查 询 的 SQL 中 。 下 面 的 例子 展示 的 是 将 视图 定义 的 SQL 
合并 进香 询 SQL 后 的 样子 : 





mysql> SELECT Code, Name FROM Country 


-> WHERE Continent = 'Oceania' AND Name = 'Australia'; 





MySQL 可 以 使 用 这 两 种 办 法 中 的 任何 一 种 来 处 理 视图 。 这 两 种 算 
法 分 别称 为 合并 算法 (MERGE〉 和 临时 表 算 法 (TEMPTABLE)〉 由 ， 如 果 可 
能 ， 会 尽 可 能 地 使 用 合并 算法 。MySQL 甚 至 可 以 峙 套 地 定义 视图 ， 也 
就 是 在 一 个 视图 上 再 定义 另 一 个 视图 。 可 以 在 EXPLAIN EXTENDED 之 后 使 
用 SHOW WARN1NGS 来 查看 使 用 视图 的 查询 重 写 后 的 结果 。 


如 果 是 采用 临时 表 算 法 实现 的 视图 ，EXPLAIN 中 会 显示 为 派生 表 
(DERIVED) 。 图 7-1 展 示 了 这 两 种 实现 的 细节 。 








临时 表 算 法 
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图 7-1: 视图 的 两 种 实现 


如 果 视 图 中 包含 GROUY BY, DISTINCT. ARAK UNION, F 
查询 等 ， 只 要 无 法 在 原 表 记录 和 视图 记录 中 建立 一 一 映射 的 场景 中 ， 
MySQL 都 将 使 用 临时 表 算法 来 实现 视图 。 上 面 列举 的 可 能 不 全 ， 而 且 
这 些 规 则 在 未 来 的 版 本 中 也 可 能 会 改变 。 如 果 你 想 确 定 MySQL 到 底 是 
使 用 合并 算法 还 是 临时 表 算法 ， 可 以 EXPLAIN 一 条 针对 视图 的 简单 查 
询 : 





dil EXPLAIN fai * FROM <view_name>; 


| 1 | PRIMARY | 
| 2 | DERIVED | 
+----+------------- + 


这 里 的 select_type 为 "DERIVED”， 说 明 访 视图 是 采用 临时 表 算 法 
实现 的 。 不 过 要 注意 : 如 果 产 生 的 底层 派生 表 很 大 ， 那 么 执行 EXPLAIN 
可 能 会 非常 慢 。 因 为 在 MySQL 5.5 和 更 老 的 版 本 中 ，EXPLAIN 是 需要 实 
际 执行 并 产生 该 派生 表 的 。 


视图 的 实现 算法 是 视图 本 和 映 的 属性 ， 和 作用 在 视图 上 的 查询 语句 无 
天 。 例 如 ， 可 以 为 一 个 基于 简单 查询 的 视图 指定 使 用 临时 表 算 法 : 





CREATE ALGORITHM=TEMPTABLE VIEW vi AS SELECT * FROM sakila.ac 





实现 该 视图 的 SQL 本 号 并 不 需要 临时 表 ， 但 基于 该 视图 无 论 执行 什 
么 样 的 查询 ， 视 图 都 会 生成 一 个 临时 表 。 


7.2.1 可 更 新 视图 


可 更 新 视图 Cupdatable view) 是 指 可 以 通过 更 新 这 个 视图 来 更 新 视 
图 涉及 的 相关 表 。 只 要 指定 了 合适 的 条 件 ， 束 可 以 更 新 、 删 除 甚至 向 视 
图 中 写 入 数据 。 例 如 ， 下 面 就 是 一 个 合理 的 操作 : 





mysql> UPDATE Oceania SET Population = Population * 1.1 WHERE 


如 果 视 图 定义 中 包含 了 GROUP ”BY、UNI0ON、 有 聚合 函数 ， 以 及 其 他 一 
些 特殊 情况 ， 就 不 能 被 更 新 了 。 更 新 视图 的 查询 也 可 以 是 一 个 关联 语 
句 ， 但 是 有 一 个 限制 ， 被 更 新 的 列 必须 来 自 同 一 个 表 中 。 男 外 ， 所 有 使 
用 临时 表 算法 实现 的 视图 部 无 法 被 更 新 。 











在 上 一 节 定 义 视图 时 使 用 的 CHECK 0PTION 子 句 ， 表 示 任 何 通 过 视图 
更 新 的 行 ， 都 必须 符合 视图 本 身 的 WHERE 条 件 定义 。 所 以 不 能 更 新 视 
图 定义 列 以 外 的 列 ， 比 如 上 例 中 不 能 更 新 Continent 列 ， 也 不 能 插入 不 
同 Cont inent 值 的 新 数据 ， 否 则 MySQL 会 报 如 下 的 错误 : 


mysql> UPDATE Oceania SET Continent = 'Atlantis'; 


ERROR 1369 (HY000): CHECK OPTION failed 'world.Oceania' 


某 些 关系 数据 库 允 许 在 视图 上 建立 INSTEAD OF 触发 器 ， 通 过 触发 器 
可 以 精确 控制 在 修改 视图 数据 时 做 些 什 么 。 不 过 MySQL 不 支持 在 视图 
上 建 任何 触发 器 。 


7.2.2 ”视图 对 性 能 的 影响 


多 数 人 认为 视图 不 能 提升 性 能 ， 实 际 上 ， 在 MySQL 中 某 些 情况 下 
视图 也 可 以 帮助 提升 性 能 。 而 且 视 图 还 可 以 和 其 他 提升 性 能 的 方式 合 加 
使 用 。 例 如 ， 在 重 构 schema 的 时 候 可 以 使 用 视图 ， 使 得 在 修改 视图 底层 
表 结 构 的 时 候 ， 应 用 代码 还 可 能 继续 不 报错 的 运行 。 




















可 以 使 用 视图 实现 基于 列 的 权限 控制 ， 却 不 需要 真正 的 在 系统 中 创 
建 列 权限 ， 因 此 没有 额外 的 开销 。 


CREATE VIEW public.employeeinfo AS 
SELECT firstname, lastname -- but not socialsecuritynumber 
FROM private.employeeinfo; 


GRANT SELECT ON public.* TO public_user; 


有 了 时候 也 可 以 使 用 伪 临 时 视图 实现 一 些 功 能 。MySQL 虽 然 不 能 创 
建 只 在 当前 连接 中 存在 的 真正 的 临时 视图 ， 但 是 可 以 建 一 个 特殊 名 字 的 
视图 ， 然 后 在 连接 结束 的 时 候 删 除 该 视图 。 这 样 在 连接 过 程 中 就 可 以 
在 FROM 子 句 中 使 用 这 个 视 岁 ， 和 使 用 子 碍 询 的 方式 完全 相同 ， 因 为 
MySQL 在 处 理 视 图 和 处 理子 查询 的 代码 路 径 完 全 不 同 ， 所 以 它们 的 性 
能 也 不 同 。 下 面 是 一 个 例子 : 











- Assuming 1234 is the result of CONNECTION_ID() 


CREATE VIEW temp.cost_per_day_1234 AS 
SELECT DATE(ts) AS day, sum(cost) AS cost 
FROM logs.cost 
GROUP BY day; 
SELECT c.day, c.cost, s.sales 
FROM temp.cost_per_day_1234 AS c 
INNER JOIN sales.sales_per_day AS s USING(day); 
DROP VIEW temp.cost_per_day_1234; 





我 们 这 里 使 用 连接 1D 作 为 视图 名 字 的 一 部 分 来 避免 冲突 。 在 应 用 友 
生 朋 尝 和 别 的 意外 导致 未 清理 临时 视图 的 时 候 ， 这 个 技巧 使 得 清理 临时 
视图 变 得 很 简单 。 详 细 的 信息 可 以 参考 后 面 的 “丢失 的 临时 表 ”。 


使 用 临时 表 算 法 实现 的 视图 ， 在 某 些 时 候 性 能 会 很 糟糕 《虽然 可 能 
比 直接 使 用 等 效 碍 询 语句 要 好 一 点 ) 。MySQL 以 递归 的 方式 执行 这 类 
视图 ， 先 会 执行 外 层 查 询 ， 即 使 外 层 查 询 优化 器 将 其 优化 得 很 好 ， 但 是 
MySQL 优 化 器 可 能 无 法 像 其 他 的 数据 库 那 样 做 更 多 的 内 外 结合 的 优 
化 。 外 层 查 询 的 WHERE 条 件 无 法 “下 推 ”到 构建 视图 的 临时 表 的 查询 中 ， 
临时 表 也 无 法 建立 索引 名。 下 面 是 一 个 例子 ， 还 是 基于 
temp. cost per_day 1234 这 个 视图 : 














mysql> SELECT c.day, c.cost, s.sales 
-> FROM temp.cost_per_day_1234 AS c 
-> INNER JOIN sales.sales_per_day AS s USING(day) 
-> WHERE day BETWEEN '2007-01-01' AND '2007-01-31'; 


在 这 个 查询 中 ，MySQL 先 执行 视图 的 SQL 生成 临时 表 ， 然 后 再 
将 sales_per_day 和 临时 表 进 行 关联 。 这 里 的 WHERE 子 句 中 的 BETWEEN 条 


件 并 不 能 下 推 到 视图 当中 ， 所 以 视图 在 创建 的 时 候 仍 然 需要 将 所 有 的 数 
据 都 放 到 临时 表 当 中 ， 而 不 仅仅 是 一 个 月 的 数据 。 而 且 临 时 表 中 不 会 有 
索引 。 这 个 案例 中 ， 索 引 还 不 是 问题 : MySQL 将 临时 表 作 为 关联 顺序 
中 的 第 一 个 表 ， 因 此 这 里 可 以 使 用 sales_per_day 中 的 索引 。 不 过 ， 如 
果 是 对 两 个 视图 做 关联 的 话 ， 优 化 器 就 没有 任何 索引 可 以 使 用 了 。 

















视图 还 引入 了 一 些 并 非 MySQL 特 有 的 其 他 问题 。 很 多 开发 者 以 为 
视图 很 简单 ， 但 实际 上 其 背后 的 逻辑 可 能 非常 复杂 。 开 发 人 员 如 宁 没 有 
意识 到 视图 背后 的 复杂 性 ， 很 可 能 会 以 为 是 在 不 停 地 重复 查询 一 张 简单 
的 表 ， 而 没有 意识 到 实际 上 是 代价 高 昂 的 视图 。 我 们 见 过 不 少 和 案例 ， 一 
条 看 起 来 很 简单 的 查询 ，EXPLAIN 出 来 却 有 几 百 行 ， 因 为 其 中 一 个 或 者 
多 个 表 ， 实 际 上 是 引用 了 很 多 其 他 表 的 视图 。 














如 有 打算 使 用 视图 来 提升 性 能 ， 需 要 做 比较 详细 的 测试 。 即 使 是 合 
并 算法 实现 的 视图 也 会 有 额外 的 开销 ， 而 且 视 图 的 性 能 很 难 预测 。 在 
MySQL 优 化 器 中 ， 视 图 的 代码 执行 路 径 也 完全 不 同 ， 这 部 分 代码 测试 
还 不 够 全 面 ， 可 能 会 有 一 些 隐藏 缺陷 和 问题 。 所 以 ， 我 们 认为 视图 还 不 
ERA RIA. PIE, RNG NAP, BASAL Aes 
询 导 致 得 询 优化 器 花 了 大 量 时 间 在 执行 计划 生成 和 统计 数据 阶段 ， 这 其 
至 会 导致 MySQL 服 务 喜 僵 死 ， 后 来 通过 将 视图 转换 成 等 价 的 查询 语句 
解决 了 问题 。 这 也 说 明 视 图 一 一 即使 是 使 用 合并 算法 实现 的 一 一 并 不 忆 
是 有 很 优化 的 实现 。 


7.2.3 ”视图 的 限制 


在 其 他 的 关系 数据 库 中 你 可 能 使 用 过 物化 视图 ，MySQL 还 不 文 持 
物化 视图 物化 视图 是 指 将 视图 结果 数据 存放 在 一 个 可 以 查看 的 表 中 ， 








并 定期 从 原始 表 中 刷新 数据 到 这 个 表 中 ) 。MySQL 也 不 文 持 在 视图 中 
创建 索引 。 不 过 ， 可 以 使 用 构建 缓存 表 或 者 汇总 表 的 办 法 来 模拟 物化 视 
图 和 索引 。 可 以 直接 使 用 Justin Swanhart's 的 工具 Flexviews 来 实现 这 个 日 
的 。 参 考 第 4 章 可 以 获得 更 多 的 相关 细 市 。 








MySQL 视 图 实现 上 也 有 一 些 让 人 烦恼 的 地 方 。 例 如 ，MySQL 并 不 
会 保存 视图 定义 的 原始 SQL 语句 ， 所 以 如 条 打算 通过 执行 SHOW CREATE 
VIEW 后 再 简单 地 修改 其 结果 的 方式 来 重新 定义 视图 ， 可 能 会 大 失 所 
EA. SHOW CREATE VIEW 出 来 的 视图 创建 语句 将 以 一 种 不 友好 的 内 部 格式 
呈现 ， 充 满 了 各 种 转 义 符 和 引号 ， 没 有 代码 格式 化 ， 没 有 注释 ， 也 没有 
缩 进 。 








如 果 打 算 重新 修改 一 个 视图 ， 并 且 没 法 找到 视图 的 原始 的 创建 语句 
的 话 ， 可 以 通过 使 用 视图 的 .frm 文 件 的 最 后 一 行 获得 一 些 信息 。 如 果 
有 FILE 权 限 ， 甚 至 可 以 直接 使 用 SQL 语句 中 的 LOAD_FILE 0 来 读 取 .frm 中 
的 视图 创建 信息 。 再 加 上 一 些 字 符 处 理工 作 ， 就 可 以 获得 一 个 完整 的 视 
图 创建 语句 了 ， 感 谢 Roland Bouman 创 造 性 的 实现 : 








mysql> SELECT 
=> REPLACE (REPLACE (REPLACE (REPLACE (REPLACE (REPLACE ( 
> REPLACE (REPLACE (REPLACE(REPLACE(REPLACE( 
> SUBSTRING INDEX (LOAD_ FILE('/var/lib/mysql/world/Oceania.frm' ), 
-> '\nsource=' -1), 
-> AN Py Ne AR, Ne AXA PAN Ds "Ws “NESE 
> mr eh, N's, WE, A), OA, 
> WANG "No 


-> AS source; 


| SELECT * FROM Country WHERE continent = 'Oceania' 
WITH CHECK OPTION 


7.3 ”外 键 约束 


InnoDB 是 目前 MYSQL 中 唯一 文 持 外 键 的 内 置 存储 引擎 ， 所 以 如 采 
需要 外 键 文 持 那 选择 束 不 多 了 〈PBXT 也 有 外 键 文 持 ) 。 








使 用 外 键 是 有 成 本 的 。 比 如 外 键 通 音 都 要 求 每 次 在 修改 数据 时 都 要 
在 忆 外 一 张 表 中 多 执行 一 次 碍 找 操 作 。 虽 然 InnoDB 强 制 外 键 使 用 索 
引 ， 但 还 是 无 法 消除 这 种 约束 检查 的 开销 。 如 果 外 键 列 的 选择 性 很 低 ， 
则 会 导致 一 个 非 第 大 且 选 择 性 很 低 的 索引 。 例 如 ， 在 一 个 非 第 大 的 表 上 
有 status 列 ， 并 希望 限制 这 个 状态 列 的 取 值 ， 如 果 该 列 只 能 取 三 个 值 
一 一 里 然 这 个 列 本 喘 很 小 ， 但 是 如 果 主 键 很 大 ， 那 么 这 个 索引 就 会 很 大 
一 一 而 且 这 个 索引 除了 做 这 个 外 键 限制 ， 也 没有 任何 其 他 的 作用 了 。 





不 过 ， 在 东 些 场景 下 ， 外 键 会 提升 一 些 性 能 。 如 果 想 确保 两 个 相关 
表 始 终 有 一 致 的 数据 ， 那 么 使 用 外 刍 比 在 应 用 程序 中 检查 一 致 性 的 性 能 
要 高 得 多 ， 此 外 ， 外 键 在 相关 数据 的 删除 和 更 新 上 ， 也 比 在 应 用 中 维护 
要 更 局 效 ， 不 过 ， 外 键 维护 操作 是 逐 行进 行 的 ， 所 以 这 样 的 更 新 会 比 批 
量 删除 和 更 新 要 慢 些 。 


外 键 约 束 使 得 碍 询 需 要 额外 访问 一 些 别 的 表 ， 这 也 意味 着 需要 额外 
的 锁 。 如 果 辐 子 表 中 写 入 一 条 记录 ， 外 键 约 束 会 让 InnoDB 检 查 对 应 的 
父 表 的 记录 ， 也 就 需要 对 父 表 对 应 记录 进行 加 锁 操 作 ， 来 确保 这 条 记录 
不 会 在 这 个 事务 完成 之 时 就 和 被 删除 了 。 这 会 导致 额外 的 锁 等 待 ， 甚 全 会 
导致 一 些 死 锁 。 因 为 没有 直接 访问 这 些 表 ， 所 以 这 类 死 锁 问 题 往 往 难 以 
HA. 

















有 时 ， 可 以 使 用 触发 器 来 代替 外 键 。 对 于 相关 数据 的 同时 更 新 外 键 
更 合适 ， 但 是 如 果 外 键 只 是 用 作 数 值 约束 ， 那 么 触发 器 或 者 显 式 地 限制 
取 值 会 更 好 些 。 (这 里 ， 可 以 直接 使 用 ENUM 类 型 。) 





如 果 只 是 使 用 外 键 做 约束 ， 那 通常 在 应 用 程序 里 实现 该 约束 会 更 
好 。 外 键 会 带 来 很 大 的 额外 消耗 。 这 里 没有 相关 的 基准 测试 的 数据 ， 不 
过 我 们 碰 到 过 很 多 案例 ， 在 对 性 能 进行 剂 析 时 发 现 外 键 约 束 就 是 瓶颈 所 
在 ， 删 除外 键 后 性 能 立即 大 幅 提升 。 





7.4 在 MySQL 内 部 存储 代码 


MySQL 人 允许 通过 触发 器 、 存 储 过 程 、 函 数 的 形式 来 存储 代码 。 从 
MySQL 5.1 开 始 ， 还 可 以 在 定时 任务 中 存放 代码 ， 这 个 定时 任务 也 被 称 
为 “事件 ”。 存 储 过 程 和 存储 函数 都 被 统称 为 “存储 程序 ”。 





这 四 种 存储 代码 都 使 用 特殊 的 SQL 语句 扩展 ， 它 包含 了 很 多 过 程 处 
理 语 法 ， 例 如 循环 和 条 件 分 支 等 名 。 不 同类 型 的 存储 代码 的 主要 区 别 在 
于 其 执行 的 上 下 文 一 一 也 就 是 其 输入 和 和 输出。 存储 过 程 和 存储 函数 都 可 
以 接收 参数 然后 返回 值 ， 但 是 触及 器 和 事件 却 不 行 。 


一 般 来 说 ， 存 储 代 码 是 一 种 很 好 的 共享 和 复 用 代码 的 方法 。 
Giuseppe Maxia 和 其 他 一 些 人 也 建立 了 一 些 通 用 的 存储 过 程 库 ， 在 网 站 
http://mysql-sr-lib.sourceforge.net 可 以 找到 。 不 过 因为 不 同 的 关系 数据 库 
都 有 各 自 的 语法 规则 ， 所 以 不 同 的 数据 库 很 难 复 用 这 些 存储 代码 (DB2 
是 一 个 例外 ， 它 和 MySQL 基 于 相同 的 标准 ， 有 着 非常 类 似 的 语法 ) O, 














这 里 将 主要 关注 存储 代码 的 性 能 ， 而 不 是 如 何 实现 。 如 果 你 打算 学 
习 如 何 编写 存储 过 程 ， 那 么 Guy ”Harrison 和 Steven ”Feuerstein 编 写 的 
MySQL Stored Procedure Programming (O'Reilly) 应 该 会 有 帮助 。 





有 人 倡导 使 用 存储 代码 ， 也 有 人 有 反对。 这 里 我 们 不 站 在 任何 一 边 ， 
只 是 列举 一 下 在 MySQL 中 使 用 存储 代码 的 优点 和 缺点 。 首 先 ， 它 有 如 
Pot: 





。 它 在 服务 器 内 部 执行 ， 离 数据 最 近 ， 力 外 在 服务 器 上 执行 还 可 以 节 
省 带宽 和 网 络 延迟 。 


这 是 一 种 代码 重用 。 可 以 方便 地 统一 业务 规则 ， 保 证 茶 些 行为 总 是 
一 致 ， 所 以 也 可 以 为 应 用 提供 一 定 的 安全 性 。 

它 可 以 简化 代码 的 维护 和 版 本 更 新 。 

它 可 以 帮助 提升 安全 ， 比 如 提供 更 细 粒 度 的 权限 控制 。 一 个 常见 的 
例子 是 银行 用 于 转移 资金 的 存储 过 程 : 这 个 存储 过 程 可 以 在 一 个 事 
务 中 完成 资金 转移 和 记录 用 于 审计 的 日 志 。 应 用 程序 也 可 以 通过 存 
储 过 程 的 接口 访问 那些 没有 权限 的 表 。 

服务 嚣 端 可 以 缓存 存储 过 程 的 执行 计划 ， 这 对 于 需要 反复 调用 的 过 
程 ， 会 大 大 降低 消耗 。 

因为 是 在 服务 器 并 部 署 的 ， 所 以 备份 、 维 护 都 可 以 在 服务 器 剖 完 
成 。 所 以 存储 程序 的 维护 工作 会 很 简单 。 它 没什么 外 部 依赖 ， 例 
如 ， 不 依赖 任何 Perl 包 和 其 他 不 想 在 服务 器 上 部 署 的 外 部 软件 。 

它 可 以 在 应 用 开发 和 数据 库 开 友人 员 之 间 更 好 地 分 工 。 不 过 最 好 是 
由 数据 库 专 家 来 开发 存储 过 程 ， 因 为 不 是 每 个 应 用 开发 人 员 都 能 与 
出 高 效 的 SQL 查询 。 











存储 代码 也 有 如 下 缺点 : 


MySQL 本 里 没有 提供 好 用 的 开发 和 调试 工具 ， 所 以 编写 MySQL 的 
存储 代码 比 其 他 的 数据 库 要 更 难 些 。 

较 之 应 用 程序 的 代码 ， 存 储 代码 效率 要 稍微 差 些 。 例 如 ， 存 储 代 人 码 
中 可 以 使 用 的 函数 非常 有 限 ， 所 以 使 用 存储 代码 很 难 编写 复杂 的 字 
符 串 维护 功能 ， 也 很 难 实现 太 复杂 的 逻辑 。 

存储 代码 可 能 会 给 应 用 程序 代码 的 部 署 带 来 额外 的 复杂 性 。 原 本 只 
需要 部 署 应 用 代码 和 库 表 结构 变更 ， 现 在 还 需要 额外 地 部 署 
MySQL 内 部 的 存储 代码 。 

因为 存储 程序 都 部 署 在 服务 器 内 ， 所 以 可 能 有 安全 隐患 。 如 果 将 非 








标准 的 加 密 功能 放 在 存储 程序 中 ， 那 么 知 数据 库 被 攻破 ， 数 据 也 就 

泄漏 了 。 但 是 知 将 加 密 函 数 放 在 应 用 程序 代码 中 ， 那 么 攻击 者 必须 
同时 攻破 程序 和 数据 库 才能 获得 数据 。 

存储 过 程 会 给 数据 库 服 务 器 增加 额外 的 压力 ， 而 数据 库 服 务 器 的 扩 

展 性 相 比 应 用 服务 器 要 差 很 多 。 

MySQL 并 没有 什么 选项 可 以 控制 存储 程序 的 资源 消耗 ， 所 以 在 存 

储 过 程 中 的 一 个 小 错误 ， 可 能 直接 把 服务 器 拖 死 。 

存储 代码 在 MySQL 中 的 实现 也 有 很 多 限制 一 一 执行 计划 缓存 是 连 

接 级 别 的 ， 游 标的 物化 和 临时 表 相 同 ， 在 MySQL 5.5 版 本 之 前 ， 异 

常 处 理 也 非常 困难 ， 等 等 。 我 们 会 在 介绍 它 的 各 个 特性 的 同时 介 

绍 相关 的 限制 ) 。 简 而 言 之 ， 较 之 T-SQL 或 者 PL/SQL，MySQL 的 

存储 代码 功能 还 非常 非常 弱 。 

调试 MySQL 的 存储 过 程 是 一 件 很 困难 的 事情 。 如 果 慢 日 志 只 是 给 
i 这 时 不 

得 不 看 看 存储 过 程 中 的 SQL 语 A 的 。 (这 在 Percona 

Server 中 可 以 通过 参数 控制 。 

它 和 基于 语句 的 二 ieee. 在 基于 语句 的 复制 
中 ， 使 用 存储 代码 通常 有 很 多 的 陷阱 ， 除 非 你 在 这 方面 的 经 验 非常 
富 或 者 非常 有 了 耐心 排查 这 类 问题 ， 否 则 需要 谨慎 使 用 。 

















这 个 缺陷 列表 很 长 一 一 那么 在 真实 世界 中 ， 这 意味 痢 什 么 ?我 们 来 
看 一 个 真实 世界 中 弄巧成拙 的 案例 :在 一 个 实例 中 ， 创 建 了 一 个 存储 过 
程 来 给 应 用 程序 访问 数据 库 中 的 数据 ， 这 使 得 所 有 的 数据 访问 都 需要 通 
过 这 个 接口 ， 甚 至 很 多 根据 主键 的 查询 也 是 如 此 ， 这 大 概 使 系统 的 性 能 
降低 了 五 倍 左右 。 




















最 后 ， 存 储 代码 是 一 种 帮助 应 用 隐藏 复杂 性 ， 使 得 应 用 开发 更 简单 





的 方法 。 不 过 ， 它 的 性 能 可 能 更 低 ， 而 且 会 给 MYSQL 的 复制 等 增加 淤 
在 的 风险 。 所 以 当 你 打算 使 用 存储 过 程 的 时 候 ， 需 要 问 问 自 己 ， 到 底 硕 
望 程序 逻辑 在 哪儿 实现 ， 是 数据 库 中 还 是 应 用 代码 中 ? 这 两 种 做 法 都 可 
以 ， 也 都 很 流行 。 只 是 当 你 编写 存储 代码 的 时 候 ， 你 需要 明白 这 是 将 程 
序 逻 辑 放 在 数据 库 中 。 


7.4.1 存储 过 程 和 函数 


MySQL 的 架构 本 身 和 优化 器 的 特性 使 得 存储 代码 有 一 些 天 然 的 限 
制 ， 它 的 性 能 也 一 定 程度 受 限 于 此 。 在 本 书 编写 的 时 候 ， 有 如 下 的 限 

















优化 右 无 法 使 用 关键 字 DETERMIN1STI1C 来 优化 单个 得 询 中 多 次 调用 
存储 函数 的 情况 。 

优化 器 无 法 评估 存储 函数 的 执行 成 本 。 

每 个 连接 都 有 独立 的 存储 过 程 的 执行 计划 缓存 。 如 果 有 多 个 连接 需 
要 调用 同一 个 存储 过 程 ， 将 会 浪费 缓存 空间 来 反复 绥 存 同样 的 执行 
计划 。 Oa a 连接 ， 那 么 执行 计划 组 
存 可 能 会 有 更 长 的 生命 周期 。 

存储 程序 和 复制 是 一 组 诡异 A 如 果 可 以 ， 最 好 不 要 复制 对 存储 
程序 的 调用 。 直 接 复制 由 存储 程序 改变 的 数据 则 会 更 好 。MySQL 
5.1 引 入 的 行 复制 能 够 改善 这 个 问题 。 如 果 在 MySQL 5.0 中 开启 了 二 
进 制 日 志 ， 那 么 要 么 在 所 有 的 存储 过 程 中 都 增加 DETERMINI1STIC 限 
制 或 者 设置 MySQL 的 选项 log_bin_trust_function_creators。 




















我 们 通 肖 会 布 望 存储 程序 cade 越 简 单 越 好 。 和 希望 将 更 加 复杂 的 处 
理 馆 辑 交 给 上 层 的 应 用 实现 ， 通 常 这 样 会 使 代码 更 易 读 、 易 维护 ， 也 会 
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不 过 ， 对 于 某 些 操作 ， 存 储 过 程 比 其 他 的 实现 要 快 得 多 一 一 特别 是 
当 一 个 存储 过 程 调用 可 以 代 瞪 很 多 小 查询 的 时 候 。 如 果 碍 询 很 小 ， 相 比 
这 个 查询 执行 的 成 本 ， 解 析 和 网 络 开销 就 变 得 非常 明显 。 为 了 证 明 这 一 
点 ， 我 们 先 创 建 一 个 简单 的 存储 过 程 ， 用 来 写 入 一 定数 量 的 数据 到 一 个 
表 中 ， 下 面 是 存储 过 程 的 代码 : 


1 DROP PROCEDURE IF EXISTS insert_many_rows; 

2 

3 delimiter // 

4 

5 CREATE PROCEDURE insert_many_rows (IN loops INT) 

6 BEGIN 

7 DECLARE vi INT; 

8 SET vi=loops; 

9 WHILE vi > 0 DO 

10 INSERT INTO test_table values(NULL,O, 

11 'qqqqqqqqqqwwwwwwwwwweeeeeeeeeerrrrrrrrrrt 
12 'qqqqqqqqqqwwwwwwwwwweeeeeeeeeerrrrrrrrrrt 
13 SET v1 = vi - 1; 

14 END WHILE; 

15 END; 

16 // 

17 

18 delimiter ; 


然后 对 该 存储 过 程 执行 基准 测试 ， 看 插入 一 百 万 条 记录 的 时 间 ， 并 
和 通过 客户 端 程序 逐条 插入 一 百 万 条 记录 的 时 间 进 行 对 比 。 这 里 表 结 构 
和 硬件 并 不 重要 一 -一 重要 的 是 两 种 方式 的 相对 速度 。 另 外 ， 我 们 还 测试 
了 使 用 MySQL Proxy 连 接 MySQL 来 执行 客户 问 程 序 测试 的 性 能 。 为 了 让 
事情 简单 ， 整 个 测试 在 一 台 服 务 器 上 完成 ， 包 括 客 户 端 程序 和 MySQL 
Proxy 实 例 。 表 7-1 展 示 了 测试 结果 。 





表 7-1: 写 入 一 百 万 数据 所 花费 的 总 时 间 





号 六 方式 总 消耗 时 间 


存储 过 和 
客户 端 程序 279 sec 


使 用 MySQL Proxy hj% F mE 307 sec 





可 以 看 到 存储 过 程 要 快 很 多 ， 很 大 程度 因为 它 无 须 网 络 通信 开销 、 
解析 开销 和 优化 器 开销 等 。 





我 们 将 在 本 章 的 后 半 部 分 介绍 如 何 维护 存储 过 程 。 


7.4.2 fh Aes 


触发 器 可 以 让 你 在 执行 INSERT、UPDATE 或 者 DELETE 的 时 候 ， 执 行 
一 些 特定 的 操作 。 可 以 在 MySQL 中 指定 是 在 SQL 语句 执行 前 触发 还 是 在 
执行 后 触发 。 触 发 器 本 身 没有 返回 值 ， 不 过 它们 可 以 读 取 或 者 改变 触发 
SQL 语句 所 影响 的 数据 。 所 以 ， 可 以 使 用 触发 器 实现 一 些 强制 限制 ， 或 





者 某 些 业务 逻辑 ， 否 则 ， 就 需要 在 应 用 程序 中 实现 这 些 逻 辑 。 


因为 使 用 触发 器 可 以 减少 客户 端 和 服务 器 之 间 的 通信 ， 所 以 触发 器 
可 以 简化 应 用 逻辑 ， 还 可 以 提高 性 能 。 另 外 ， 还 可 以 用 于 目 动 更 新 反 范 
式 化 数据 或 者 汇总 表 数 据 。 例 如 ， 在 示例 数据 库 Sakila 中 ， 我 们 可 以 使 
用 触发 器 来 维护 film_text 表 。 


MySQL 触 发 器 的 实现 非常 简单 ， 所 以 功能 也 有 限 。 如 果 你 在 其 他 
数据 库 产品 中 己 经 重度 依赖 触及 费 ， 那 么 在 使 用 MySQL 的 时 候 需 要 注 
意 ， 很 多 时 候 MySQL 触 用 器 的 表现 和 预想 的 并 不 一 样 。 特 别 需 要 注意 
DAR Usk: 








。 对 每 一 个 表 的 每 一 个 事件 ， 最 多 只 能 定义 一 个 触发 器 ( 换 句 话说 ， 
不 能 在 AFTER INSERT 上 定义 两 个 触发 器 ) o 

MySQL 只 支持 “基于 行 的 触发 > 一 一 也 就 是 说 ， 触 发 器 始终 是 针对 一 
条 记录 的 ， 而 不 是 针对 整个 SQL 语句 的 。 如 果 变 更 的 数据 集 非常 大 
的 话 ， 效 率 会 很 低 。 











下 面 这 些 触 及 器 本 里 的 限制 也 适用 于 MySQL: 


触发 器 可 以 掩盖 服务 器 背后 的 工作 ， 一 个 简单 的 SQL 语句 背后 ， 因 
为 触发 器 ， 可 能 包含 了 很 多 看 不 见 的 工作 。 例 如 ， 触 发 器 可 能 会 更 
新 男 一 个 相关 表 ， 那 么 这 个 触及 右 会 让 这 条 SQL 影 响 的 记录 数 翻 一 
倍 。 

触 上 友 需 的 问题 也 很 难 排 得 ， 如 宁 某 个 性 能 问题 和 触发 右 相 关 ， 会 很 
难 分 析 和 定位 。 

触发 器 可 能 导致 死 锁 和 锁 等 待 。 如 采 触 发 右 失 败 ， 那 么 原来 的 SQL 
语句 也 会 失败 。 如 果 没 有 意识 到 这 其 中 是 触发 右 在 搞鬼， 那么 很 难 


理解 服务 器 抛 出 的 错误 代码 是 什么 意思 。 


如 果 仅 考虑 性 能 ， 那 么 MySQL 和 触发 右 的 实现 中 对 服务 器 限制 最 大 
的 就 是 它 的 “基于 行 的 触发 ”设计 。 因 为 性 能 的 原因 ， 很 多 时 候 无 法 使 用 
触发 器 来 维护 汇总 和 缓存 表 。 使 用 触发 喜 而 不 是 批量 更 新 的 一 个 重要 原 
因 就 是 ， 使 用 触发 器 可 以 保证 数据 总 是 一 致 的 。 








触发 器 并 不 能 一 定 保证 更 新 的 原子 性 。 例 如 ， 一 个 触发 右 在 更 新 
MyISAM 表 的 时 候 ， 如 果 遇 到 什么 错误 ， 是 没有 办 法 做 回 滚 操作 的 。 这 
时 ， 触 发 器 可 以 抛 出 错误 。 假 设 你 在 一 个 MyISAM 表 上 建立 一 个 AFTER 
UPDATE 的 触发 器 ， 用 来 更 新 另 一 个 MyISAM 表 。 如 果 触 发 器 在 更 新 第 二 
个 表 的 时 候 遇 到 错误 导致 更 新 失败 ， 那 么 第 一 个 表 的 更 新 并 不 会 回 滚 。 


在 InnoDB 表 上 的 触发 器 是 在 同一 个 事务 中 完成 的 ， 所 以 它们 执行 
的 操作 是 原子 的 ， 原 操作 和 触发 器 操作 会 同时 失败 或 者 成 功 。 不 过 ， 如 
果 在 InnoDB 表 上 建 触发 器 去 检查 数据 的 一 臻 性， 需要 特别 小 心 MVCC， 
稍 不 小 心 ， 你 可 能 会 获得 错误 的 结果 。 假 设 ， 你 想 实 现 外 键 约束 ， 但 是 
不 打算 使 用 InnoDB 的 外 键 约束 。 硅 打算 编写 一 个 BEFORE ”1NSERT 触 发 器 
来 检查 写 入 的 数据 对 应 列 在 男 一 个 表 中 是 存在 的 ， 但 吞 你 在 触发 器 中 没 
有 使 用 SELECT FOR UPDATE， 那么 并 发 的 更 新 语句 可 能 会 立刻 更 新 对 应 
记录 ， 导 致 数据 不 一 致 。 我 们 不 是 危 言 答 听 ， 让 大 家 不 要 使 用 触发 器 。 
相反 ， 触 发 器 非常 有 用 ， 尤 其 是 实现 一 些 约束 、 系 统 维护 任务 ， 以 及 更 
新 反 范 式 化 数据 的 时 候 。 





还 可 以 使 用 触及 器 来 记录 数据 变更 日 志 。 这 对 实现 一 些 自 定义 的 复 
制 会 非常 方便 ， 比 如 需要 先 断 开 连 接 ， 然 后 修改 数据 ， 最 后 再 将 所 有 的 
修改 重新 合并 回去 的 情况 。 一 个 简单 的 例子 是 ， 一 组 用 户 各 自在 目 己 的 
个 人 电脑 上 工作 ， 但 他 们 的 操作 都 需要 同步 到 一 台 主 数据 库 上 ， 然 后 主 











数据 库 会 将 他 们 所 有 人 的 操作 都 分 发 给 每 个 人 。 实 现 这 个 系统 需要 做 两 
次 同步 操作 。 触 发 器 融 是 构建 整个 系统 的 一 个 好 办 法 。 每 个 人 的 电脑 上 
都 可 以 使 用 一 个 触发 器 来 记录 每 一 次 数据 的 修改 ， 并 将 其 及 送 到 主 数据 
库 中 。 然 后 ， 再 使 用 MYSQL 的 复制 将 主 数据 库 上 的 所 有 操作 都 复制 一 
份 到 本 地 并 应 用 。 这 里 需要 额外 注意 的 是 ， 如 果 触 发 露 基于 有 目 增 主键 
的 记录 ， 并 且 使 用 的 是 基于 语句 的 复制 ， 那 么 上 自 增长 可 能 会 在 复制 中 出 
现 不 一 致 。 














有 了 时候 可 以 使 用 一 些 技巧 绕 过 触发 器 是 “基于 行 的 触发 ”这 个 限制 。 
Roland Bouman 发 现 ， 对 于 BEFORE 触 发 器 除了 处 理 的 第 一 条 记录 ， 触 发 
器 函数 ROW_COUNT () 总 是 会 返回 1。 可 以 使 用 这 个 特点 ， 使 得 触发 器 不 再 
是 针对 每 一 行 都 运行 ， 而 是 针对 一 条 SQL 语句 运行 一 次 。 这 和 真正 意义 
上 的 单条 SQL 语句 的 触发 器 并 不 相同 ， 不 过 可 以 使 用 这 个 技术 来 模拟 单 
条 SQL 语句 的 BEFORE 触 上 用 器 。 这 个 行为 可 能 是 MySQL 的 一 个 缺陷 ， 未 来 
版 本 中 可 能 会 被 修复 ， 所 以 在 使 用 这 个 技巧 的 时 候 ， 需 要 先 验证 在 你 的 
MySQL 版 本 中 是 否 适 用 ， 另 外 ， 在 升级 数据 库 的 时 候 还 需要 检查 这 类 
触发 器 是 否 还 能 够 正常 工作 。 下 面 是 一 个 使 用 这 个 技巧 的 例子 : 











CREATE TRIGGER fake_statement_trigger 
BEFORE INSERT ON sometable 
FOR EACH ROW 
BEGIN 
DECLARE v_row_count INT DEFAULT ROW_COUNT(); 
IF v_row_count <> 1 THEN 
- Your code here 
END IF; 


END; 


7.4.3 ”事件 


事件 是 MySQL 5.1 引 入 的 一 种 新 的 存储 代码 的 方式 。 它 类 似 于 Linux 
的 定时 任务 ， 不 过 是 完全 在 MySQL 内 部 实现 的 。 你 可 以 创建 事件 ， 指 
定 MySQL 在 某 个 时 候 执行 一 段 SQL 代 码 ， 或 者 每 隔 一 个 时 间 间 隔 执行 一 
段 SQL 代 码 。 通 常 ， 我 们 会 把 复杂 的 SQL 都 封装 到 一 个 存储 过 程 中 ， 这 
样 事 件 在 执行 的 时 候 只 需要 做 一 个 简单 的 CALL 调 用 。 





事件 在 一 个 独立 事件 调度 线程 中 被 初始 化 ， 这 个 线程 和 处 理 连接 的 
线程 没有 任何 关系 。 它 不 接收 任何 参数 ， 也 没有 任何 的 返回 值 。 可 以 在 
MySQL 的 日 志 中 看 到 命令 的 执行 日 志 ， 还 可 以 在 
K INFORMATION_SCHEMA. EVENTS 中 看 到 各 个 事件 状态 ， 例 如 这 个 事件 最 
后 一 次 被 执行 的 时 间 等 。 


类 似 的 ， 一 些 适用 于 存储 过 程 的 考虑 也 同样 适用 于 事件 。 首 先 ， 创 
建 事 件 意 味 看 给 服务 占 囊 来 额外 工作 。 事 件 实现 机 制 本 喘 的 开销 并 不 
大 ， 但 是 事件 需要 执行 SQL， 则 可 能 会 对 性 能 有 很 大 的 影响 。 更 进 一 
步 ， 事 件 和 其 他 的 存储 程序 一 样 ， 在 和 基于 语句 的 复制 一 起 工作 时 ， 也 
可 能 会 触发 同样 的 问题 。 事 件 的 一 些 典型 应 用 包括 定期 地 维护 任务 、 重 
建 缓存 、 构 建 汇 总 表 来 模拟 物化 视图 ， 或 者 存储 用 于 监控 和 诊断 的 状态 
值 。 








下 面 的 例子 创建 了 一 个 事件 ， 它 会 每 周一 次 针对 某 个 数据 库 运 行 一 
个 存储 过 程 ( 后 面 我 们 将 展示 如 何 创建 这 个 存储 过 程 〉: 
CREATE EVENT optimize somedb ON SCHEDULE EVERY 1 WEEK 


DO 


CALL optimize_tables('somedb'); 


你 可 以 指定 事件 本 身 是 否 被 复制 。 根 据 需要 ， 有 时 需要 被 复制 ， 有 
时 则 不 需要 。 看 前 面 的 例子 ， 你 可 能 会 希望 在 所 有 的 备 库 上 都 运 
行 OPTIMIZE TABLE， 不 过 要 注意 如 果 所 有 的 备 库 同 时 执行 ， 可 能 会 影响 
服务 器 的 性 能 (会 对 表 加 锁 〉。 


最 后 ， 如 果 一 个 定时 事件 执行 需要 很 长 的 时 间 ， 那 么 有 可 能 会 出 现 
这 样 的 情况 ， 即 前 面 一 个 事件 还 未 执行 完成 ， 下 一 个 时 间 点 的 事件 又 开 
始 了 。MySQL 本 和 喘 不 会 防止 这 种 并 发 ， 所 以 需要 用 户 自己 编写 这 种 情 
况 下 的 防 并 发 代码 。 你 可 以 使 用 函数 GET_LOCK 0 来 确保 当前 总 是 只 有 一 
个 事件 在 被 执行 : 





CREATE EVENT optimize somedb ON SCHEDULE EVERY 1 WEEK 
DO 
BEGIN 
DECLARE CONTINUE HANLDER FOR SQLEXCEPTION 
BEGIN END; 
IF GET_LOCK('somedb', ©) THEN 
DO CALL optimize_tables('somedb'); 
END IF; 
DO RELEASE_LOCK('somedb'); 
END 


这 里 的 “CONTINUE ”HANLDER” 用 来 确保 ， 即 使 当 事 件 执行 出 现 了 异 
样 ， 仍 然 会 释放 持 有 的 锁 。 


里 然 事 件 的 执行 是 和 连接 无 天 的 ， 但 是 它 仍 然 是 线程 级 别 的 。 








MySQL 中 有 一 个 事件 调度 线程 ， 必 须 在 MySQL 配 置 文件 中 设置 ， 或 者 
使 用 下 面 的 命令 来 设置 : 


mysql> SET GLOBAL event_scheduler := 1; 


该 选项 一 旦 设置 ， 该 线程 就 会 执行 各 个 用 户 指 定 的 事件 中 的 各 段 
SQL 代码 。 你 可 以 通过 观察 MySQL 的 错误 日 志 来 了 解 事件 的 执行 情况 。 


虽然 事件 调度 是 一 个 单独 的 线程 ， 但 是 事件 本 身 是 可 以 并 行 执 行 
的 。MySQL 会 创建 一 个 新 的 进程 用 于 事件 执行 。 在 事件 的 代码 中 ， 如 
果 你 调用 函数 CONNECTI0N_1D () ， 也 会 返回 一 个 唯一 值 ， 和 一 般 的 线程 
返回 值 一 样 一 一 虽然 事件 和 MySQL 的 连接 线程 是 无 关 的 《这 里 的 函 
数 CONNECTION_1D () 返回 的 只 是 线程 ID) 。 这 里 的 进程 和 线程 生命 周期 
就 是 事件 的 执行 过 程 。 可 以 通过 SHOW ”PROCESSL1ST 中 的 Command 列 来 查 
看 ， 这 些 线程 的 该 列 总 是 显示 为 “Connect”。 





虽然 事件 处 理 进 程 需要 创建 一 个 线程 来 真正 地 执行 事件 ， 但 该 线程 
在 时 间 执 行 结束 后 会 被 销毁 ， 而 不 会 放 到 线程 缓存 中 ， 并 且 状 态 
值 Threads_created 也 不 会 被 增加 。 


7.4.4 在 存储 程序 中 保留 注释 


TERELTE FR. A. SP ee AY 
码 ， 在 这 些 代 码 中 加 上 注释 就 非常 有 必要 了 。 但 是 这 些 注释 可 能 不 会 存 
储 在 MySQL 服 务 器 中 ， 因 为 MySQL 的 命令 行 客 尸 端 会 目 动 过 滤 注 释 
(命令 行 客户 端的 这 个 “特性 ”* 令 人 生 厌 ， 不 过 这 束 是 生活 )〉。 


一 个 将 注释 存储 到 存储 程序 中 的 技巧 就 是 使 用 版 本 相关 的 注释 ， 因 





为 这 样 的 注释 可 能 被 MySQL 服 务 器 执行 〈 例 如， 只 有 版 本 号 大 于 菏 个 
值 的 时 候 才 执行 的 代码 ) 。 服 务 絮 和 客户 站 都 知道 这 不 是 普通 的 注释 ， 
所 以 也 就 不 会 删除 这 些 注释 。 为 了 证 这 样 的 “版 本 相关 的 代码 ?不 被 执 
行 ， 可 以 指定 一 个 非常 大 的 版 本 号 ， 例 如 99 999。 我 们 现在 给 触发 器 加 
上 一 些 注释 文档 ， 让 它 更 易 读 : 





CREATE TRIGGER fake_statement_trigger 
BEFORE INSERT ON sometable 
FOR EACH ROW 
BEGIN 
DECLARE v_row_count INT DEFAULT ROW_COUNT(); 
/* 199999 ROW_COUNT() is 1 except for the first row, s 
only once per statement. */ 
IF v_row_count <> 1 THEN 
-- Your code here 
END IF; 


END; 


7.5 ”游标 


MySQL 在 服务 器 端 提 供 只 读 的 、 单 辐 的 游标 ， 而 且 只 能 在 存储 过 
程 或 者 更 底层 的 客户 端 API 中 使 用 。 因 为 MySQL 游 标 中 指向 的 对 象 都 是 
存储 在 临时 表 中 而 不 是 实际 查询 到 的 数据 ， 所 以 MYSQL 游标 总 是 只 读 
的 。 它 可 以 逐 行 指 辣 查 询 结 果 ， 然 后 让 程序 做 进一步 的 处 理 。 在 一 个 存 
储 过 程 中 ， 可 以 有 多 个 游标 ， 也 可 以 在 循环 中 “ 扔 套 ” 地 使 用 游标 。 
MySQL 的 游标 设计 也 为 粗心 的 人 “准备 * 了 陷阱 。 因 为 是 使 用 临时 表 实 现 
的 ， 所 以 它 在 效率 上 给 开发 人 员 一 个 错觉 。 需 要 记 住 的 最 重要 的 一 点 
是 : 当 你 打开 一 个 游标 的 时 候 需 要 执行 整个 查询 。 考 虑 下 面 的 存储 过 


程 : 




















1 CREATE PROCEDURE bad_cursor() 

2 BEGIN 

3 DECLARE film_id INT; 

4 DECLARE f CURSOR FOR SELECT film_id FROM sakila.film; 
5 OPEN f; 

6 FETCH f INTO film_id; 

7 CLOSE f; 

8 END 


从 这 个 例子 中 可 以 看 到 ， 不 用 处 理 完 所 有 的 数据 就 可 以 立刻 关闭 游 
标 。 使 用 Oracle 或 者 SQL Server 的 用 户 不 会 认为 这 个 存储 过 程 有 什么 问 
题 ， 但 是 在 MySQL 中 ， 这 会 带 来 很 多 的 不 必要 的 额外 操作 。 使 用 SHOW 
STATUS 来 诊断 这 个 存储 过 程 ， 可 以 看 到 它 需 要 做 1000 个 索引 页 的 读 取 ， 
做 1000 个 写 入 。 这 是 因为 在 表 saki la. film 中 有 1000 条 记录 ， 而 所 有 这 





些 读 和 写 都 发 生 在 第 五 行 的 打开 游标 动作 。 





这 个 案例 告诉 我 们 ， 如 果 在 关闭 游标 的 时 候 你 只 是 扫描 一 个 大 结果 
集 的 一 小 部 分 ， 那 么 存储 过 程 可 能 不 仅 设 有 减少 开销 ， 相 反 带 来 了 大 量 
的 额外 开销 。 这 时 ， 你 需要 考虑 使 用 LIMIT 来 限制 返回 的 结果 集 。 


游标 也 会 让 MySQL 执 行 一 些 额 外 的 IO 操作 ， 而 这 些 操作 的 效率 可 
能 非常 低 。 因 为 临时 内 存 表 不 支持 BLOB 和 TEXT 类 型 ， 如 果 游 标 返回 的 结 
果 包 含 这 样 的 列 的 话 ，MySQL 就 必须 创建 临时 磁盘 表 来 存放 ， 这 样 性 
能 可 能 会 很 糟 。 即 使 没有 这 样 的 列 ， 当 临时 表 大 于 tmp_table_size 的 时 
候 ，MyQL 也 还 是 会 在 磁盘 上 创建 临时 表 。 





MySQL 不 文 持 客户 端 的 游标 ， 不 过 客户 端 API 可 以 通过 绥 存 全 部 奉 
询 结果 的 方式 模拟 客户 端的 游标 。 这 和 直接 将 结果 放 在 一 个 内 存 数组 中 
来 维护 并 没有 什么 不 同 。 参 考 第 6 章 ， 你 可 以 看 到 更 多 关于 一 次 性 读 取 
整个 结果 集 到 客户 端 时 的 性 能 。 





7.6 WETE 


从 MySQL = 4.1K ASTOR, ESCHER A ao ABE Ast (prepared 
statement) , KAKA SBP mA ARS as i A TS Eo MRE 
使 用 一 个 支持 新 协议 的 客户 端 ， 如 MySQL CAPI， 就 可 以 使 用 绑 定 变量 
功能 了 。 另 外 ，Java 和 .NET 的 也 都 可 以 使 用 各 上 自 的 客户 端 ConnectorvJ 和 
ConnectoYNET 来 使 用 绑 定 变量 。 最 后 ， 还 有 一 个 SQL 接口 用 于 文 持 绑 
定 变量 ， 后 面 我 们 将 讨论 这 个 〈 这 里 容易 引起 困扰 ) 。 





当 创建 一 个 绑 定 变量 SQL 时 ， 客 户 端 回 服务 器 发 送 了 一 个 SQL 语句 
的 原型 。 服 务 器 端 收 到 这 个 SQL 语句 框架 后 ， 解 析 并 存储 这 个 SQL 语句 
的 部 分 执行 计划 ， 返 回 给 客户 端 一 个 SQL 语句 处 理 句 柄 。 以 后 每 次 执行 
这 类 查询 ， 客 户 端 都 指定 使 用 这 个 句柄 。 





绑 定 变量 的 SQL， 使 用 问号 标记 可 以 接收 参数 的 位 置 ， 当 真正 需要 
执行 具体 碍 询 的 时 候 ， 则 使 用 具体 值 代 蔡 这 些 问 号 。 例 如 ， 下 面 是 一 个 
绑 定 变量 的 SQL 语句 : 


INSERT INTO tbl(coli, col2, col3) VALUES (?, ?, ?); 


FY PASI] AR as ig AIK Pd SF EL ATK PS SQL 2) HAR UT 
一 个 具体 的 查询 。 反 复 使 用 这 样 的 方式 执行 具体 的 查询 ， 这 正 是 绑 定 变 
量 的 优势 所 在 。 有 具体 如 何 发 送 取 值 参数 和 SQL 句柄 ， 则 和 各 个 客户 端的 
编程 语言 有 关 。 使 用 Java 和 .NET 的 MySQL 连 接 器 就 是 一 种 办 法 。 很 多 
使 用 MySQL C 语 言 链 接 库 的 客户 端 可 以 提供 类 似 的 接口 ， 需 要 根据 使 用 
的 编程 语言 的 文档 来 了 解 如 何 使 用 绑 定 变量 。 








因为 如 下 的 原因 ，MySQL 在 使 用 绑 定 变量 的 时 候 可 以 更 高 效 地 执 





行 大 量 的 重复 语句 : 


Js 


在 服务 器 端 只 需要 解析 一 次 SQL 语句 。 

在 服务 器 端 某 些 优化 器 的 工作 只 需要 执行 一 次 ， 因 为 它 会 缓存 一 部 
分 的 执行 计划 。 

以 二 进 制 的 方式 只 发 送 参 数 和 句柄 ， 比 起 每 次 都 发 送 ASCII 码 文本 
效率 更 高 ， 一 个 二 进 制 的 日 期 字段 只 需要 三 个 字 节 ， 但 如 果 是 
ASCII 码 则 需要 十 个 字 节 。 不 过 最 大 的 节省 还 是 来 自 于 BLOB 和 
TEXT 字段 ， 绑 定 变量 的 形式 可 以 分 块 传输 ， 而 无 须 一 次 性 传输 。 
二 进 制 协议 在 客户 端 也 可 能 节省 很 多 内 存 ， 减 少 了 网 络 开销 ， 另 
外 ， 还 节省 了 将 数据 从 存储 原始 格式 转换 成 文本 格式 的 开销 。 
仅仅 是 参数 一 一 而 不 是 整个 查询 语句 一 一 需要 发 送 到 服务 器 端 ， 所 
以 网 络 开 销 会 更 小 。 

MySQL 在 存储 参数 的 时 候 ， 直 接 将 其 存放 到 缓存 中 ， 不 再 需要 在 
内 存 中 多 次 复制 。 











绑 定 变量 相对 也 更 安全 。 无 须 在 应 用 程序 中 处 理 转 义 ， 一 则 更 简单 
二 则 也 大 大 减少 了 SQL 注入 和 攻击 的 风险 。《 任 何 时 候 都 不 要 信任 





用 户 输入 ， 即 使 是 使 用 绑 定 变量 的 时 候 。) 





可 以 只 在 使 用 绑 定 变量 的 时 候 才 使 用 二 进 制 传输 协议 。 如 采 使 用 普 


通 的 mysql_query 0 接口 则 不 会 使 用 二 进 制 传输 协议 。 还 有 一 些 客户 端 
让 你 使 用 绑 定 变量 ， 先 发 送 带 参 数 的 绑 定 SQL， 然 后 发 送 变量 值 ， 但 是 
实际 上 ， 这 些 客户 端 只 是 模拟 了 绑 定 变量 的 接口 ， 最 后 还 是 会 直接 用 具 
体 值 代 蔡 参数 后 ， 再 使 用 mysql_query 0 发 送 整 个 查询 语句 。 














76.1 绑 定 变量 的 优化 


对 使 用 绑 定 变 量 的 SQL，MySQL 能 够 缓存 其 部 分 执行 计划 ， 如 果 某 
些 执 行 计划 需要 根据 传 入 的 参数 来 计算 时 ，MySQL 惑 无 法 缓存 这 部 分 
的 执行 计划 。 根 据 优化 器 什么 时 候 工 作 ， 可 以 将 优化 分 为 三 类 。 在 本 书 
编写 的 时 候 ， 下 面 的 三 点 是 适用 的 。 


在 准备 阶段 
服务 器 解析 SQL 语句 ， 移 除 不 可 能 的 条 件 ， 并 且 重 写 子 查询 。 
在 第 一 次 执行 的 时 候 


如 果 可 能 的 话 ， 服 务 器 先 简化 蝶 套 循环 的 关联 ， 并 将 外 关联 转 
化 成 内 关联 。 





在 每 次 SQL 语句 执行 时 
服务 右 做 如 下 事情 : 


。 过滤 分 区 。 

e 如 果 可 能 的 话 ， 尽 量 移 除 COUNT () MINO 和 MAX () 。 

。 移 除 常数 表达 式 。 

。 检测 常量 

。 做 必要 的 等 值 传播 。 

。 分 析 和 优化 ref、range 和 索引 优化 等 访问 数据 的 方法 。 
。 优化 关联 顺序 。 





参考 第 6 音 ， 可 以 了 解 更 多 关于 这 些 优化 的 信息 。 理 论 上 ， 有 些 优 





化 只 需要 做 一 次 ， 但 实际 上 ， 上 面 的 操作 还 是 都 会 被 执行 。 





7.6.2 ”SQL 接口 的 绑 定 变量 


在 4.1 和 更 新 的 版 本 中 ，MySQL 文 持 了 SQL 接口 的 绑 定 变量 。 不 使 
用 二 进 制 传输 协议 也 可 以 直接 以 SQL 的 方式 使 用 绑 定 变量 。 下 面 案例 展 
示 了 如 何 使 用 SQL 接口 的 绑 定 变量 : 








mysql> SET @sql := "SELECT actor_id, first_name, last_name 
-> FROM sakila.actor WHERE first_name = ?'; 
mysql> PREPARE stmt_fetch_actor FROM @sql; 


| 1 | PENELOPE | GUINESS | 
| 54 | PENELOPE | PINKETT | 
| 104 | PENELOPE | CRONYN | 
| 120 | PENELOPE | MONROE | 


+ 
mysql> DEALLOCATE PREPARE stmt_fetch_actor; 


当 服 务 咒 收 到 这 些 SQL 语 句 后 ， 人 驳 会 像 一 般 客 户 端的 链接 库 一 样 将 
其 翻译 成 对 应 的 操作 。 





这 意味 着 你 无 须 使 用 二 进 制 协议 也 可 以 使 用 绑 定 变量 。 


正如 你 看 到 的 ， 比 起 直接 编写 的 SQL 语句 ， 这 里 的 语法 看 起 来 有 一 
些 怪 怪 的 。 那 么 ， 这 种 写法 实现 的 绑 定 变量 到 确 有 什么 优势 呢 ? 








最 主要 的 用 途 就 是 在 存储 过 程 中 使 用 。 在 MySQL 5.0 版 本 中 ， 束 可 
以 在 存储 过 程 中 使 用 绑 定 变量 ， 其 语法 和 前 面 介 绍 的 SQL 接口 的 绑 定 变 
量 类 似 。 这 意味 ， 可 以 在 存储 过 程 中 构建 并 执行 “动态 ”的 SQL 语句 ， 这 
里 的 “动态 ”是 指 可 以 通过 灵活 地 拼接 字符 串 等 参数 构建 SQL 语句 。 例 
如 ， 下 面 的 示例 存储 过 程 中 可 以 针对 某 个 数据 库 执行 OPTIMIZE TABLE 的 











操作 : 


DROP PROCEDURE IF EXISTS optimize tables; 
DELIMITER // 
CREATE PROCEDURE optimize_tables(db_name VARCHAR(64) ) 
BEGIN 
DECLARE t VARCHAR(64); 
DECLARE done INT DEFAULT 0; 
DECLARE c CURSOR FOR 


SELECT table name FROM INFORMATION_SCHEMA. TABLES 


WHERE TABLE_SCHEMA = db_name AND TABLE_TYPE = 'BASE TAB 


DECLARE CONTINUE HANDLER FOR SQLSTATE '02000' SET done 


OPEN C; 
tables loop: LOOP 
FETCH c INTO t; 
IF done THEN 
LEAVE tables_loop; 


END IF; 


SET @stmt_text := CONCAT("OPTIMIZE TABLE ", db_name, 


PREPARE stmt FROM @stmt_text; 
EXECUTE stmt; 
DEALLOCATE PREPARE stmt; 
END LOOP; 
CLOSE C; 
END// 


DELIMITER ; 


1 


可 以 这 样 调用 这 个 存储 过 程 : 
mysql> CALL optimize_tables('sakila' ) 
另 一 种 实现 存储 过 程 中 循环 的 办 法 是 : 


REPEAT 
FETCH c INTO t; 
IF NOT done THEN 
SET @stmt_text := CONCAT("OPTIMIZE TABLE ", db_name, "." 
PREPARE stmt FROM @stmt_text; 
EXECUTE stmt; 
DEALLOCATE PREPARE stmt; 
END IF; 
UNTIL done END REPEAT; 


这 两 种 循环 结构 最 重要 的 区 别 在 于 : REPEAT 会 为 每 个 循环 检查 两 次 
循环 条 件 。 在 这 个 例子 中 ， 因 为 循环 条 件 检查 的 是 一 个 整数 判断 ， 并 不 
会 有 什么 性 能 问题 ， 如 果 循 环 的 判断 条 件 非常 复杂 的 话 ， 则 需要 注意 这 
两 者 的 区 别 。 
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的 好 处 是 无 须 使 用 任何 参数 就 能 完成 SQL 语句 。 而 库 名 和 表 名 都 是 关键 
字 ， 在 二 进 制 协议 的 绑 定 变量 中 是 不 能 将 这 两 部 分 参数 化 的 。 妃 一 个 经 
常 需 要 动态 设置 的 惑 是 LIMIT 子 句 ， 因 为 二 进 制 协议 中 也 无 法 将 这 个 值 
参数 化 。 











另外 ， 编 写 存储 过 程 时 ，SQL 接 口 的 绑 定 变量 通常 可 以 很 大 程度 地 
帮助 我 们 调试 绑 定 变量 ， 如 果 不 是 在 存储 过 程 中 ，SQL 接 口 的 绑 定 变量 











就 不 是 那么 有 用 了 。 因 为 SQL 接口 的 绑 定 变量 ， 它 既 没 有 使 用 二 进 制 传 
和 输 协 议 ， 也 没有 能 够 节省 带宽 ， 相 反 还 总 是 需要 增加 全 少 一 次 额外 网 络 
传输 才能 完成 一 次 查询 。 所 有 只 有 在 某 些 特殊 的 场景 下 SQL 接口 的 绑 定 
变量 才 有 用 ， 比 如 当 SQL 语 句 非 党 非常 长 ， 并 且 需 要 多 次 执行 的 时 候 。 


7.6.3 绑 定 变量 的 限制 


关于 绑 定 变量 的 一 些 限制 和 注意 事项 如 下 : 














。 绑 定 变量 是 会 话 级 别 的 ， 所 以 连接 之 间 不 能 共用 绑 定 变量 句柄 。 同 
样 地 ， 一 旦 连接 断 开 ， 则 原来 的 句柄 也 不 能 再 使 用 了 。 (连接 池 和 
持久 化 连接 可 以 在 一 定 程 度 上 缓解 这 个 问题 。) 

在 MySQL 5.1 版 本 之 前 ， 绑 定 变量 的 SQL 是 不 能 使 用 查询 缓存 的 。 
并 不 是 所 有 的 时 候 使 用 绑 定 变量 都 能 获得 更 好 的 性 能 。 如 果 只 是 执 
行 一 次 SQL， 那 么 使 用 绑 定 变量 方式 无 疑 比 直接 执行 多 了 一 次 额外 
的 准备 阶段 消耗 ， 而 且 还 需要 一 次 额外 的 网 络 开销 。 (要 正确 地 使 
用 绑 定 变量 ， 还 需要 在 使 用 完成 后 ， 释 放 相 关 的 资源 。) 

当前 版 本 下 ， 还 不 能 在 存储 函数 中 使 用 绑 定 变 量 (但 是 存储 过 程 中 
可 以 使 用 ) 。 

如 果 总 是 忘记 释放 绑 定 变量 资源 ， 则 在 服务 器 端 很 容易 发 生 资 
Vette”. Fhe St SQL 总 数 的 限制 是 一 个 全 局 限制 ， 所 以 某 一 个 
地 方 的 错误 可 能 会 对 所 有 其 他 的 线程 都 产生 影响 。 

有 些 操作 ， 如 BEGIN， 无 法 在 绑 定 变量 中 完成 。 























不 过 使 用 绑 定 变量 最 大 的 障碍 可 能 是 : 它 是 如 何 实 现 以 及 原理 是 怎 
样 的 ， 这 两 点 很 容易 让 人 困惑 。 有 时 ， 很 难 解释 如 下 三 种 绑 定 变量 类 型 
之 间 的 区 别 是 什么 : 


客户 端 模 拟 的 绑 定 变量 


客户 端的 驱动 程序 接收 一 个 剖 参 数 的 SQL， 再 将 指定 的 值 带 入 
其 中 ， 最 后 将 完整 的 查询 发 送 到 服务 器 端 。 








服务 器 端的 绑 定 变量 


客户 端 使 用 特殊 的 二 进 制 协议 将 带 参 数 的 字符 串 发 送 到 服务 器 
端 ， 然 后 使 用 二 进 制 协议 将 具体 的 参数 值 发 送 给 服务 器 问 并 执行 。 


SQL 接口 的 绑 定 变量 





客户 端 先 发 送 一 个 带 参数 的 字符 串 到 服务 器 端 ， 这 类 似 于 使 
用 PREPARE 的 SQL 语句 ， 然 后 发 送 设置 参数 的 SQL， 最 后 使 用 EXECUTE 来 
执行 SQL。 所 有 这 些 都 使 用 普通 的 文本 传输 协议 。 


7.7 ”用户 目 定义 函数 


从 很 早 开 始 ，MySQL 束 支持 用 户 目 定义 函数 UDF) 。 存 储 过 程 
只 能 使 用 SQL 来 编写 ， 而 UDF 没 有 这 个 限制 ， 你 可 以 使 用 支持 C 语 言 调 
用 约定 的 任何 编程 语言 来 实现 。 








UDF 必 须 事 先 编译 好 并 动态 链接 到 服务 器 上 ， 这 种 平台 相关 性 使 得 
UDF 在 很 多 方面 都 很 强大 。UDF 速 度 非常 快 ， 而 且 可 以 访问 大 量 操作 系 
统 的 功能 ， 还 可 以 使 用 大 量 库 函 数 。 使 用 SQL 实现 的 存储 函数 在 实现 一 
些 简单 操作 上 很 有 优势 ， 诸 如 计算 球体 上 两 点 之 间 的 距离 ， 但 是 如 宋 操 
作 涉 及 到 网 络 交 互 ， 那 么 只 能 使 用 UDF 了。 同样 地 ， 如 果 需 要 一 个 
MySQL 不 文 持 的 统计 聚合 函数 ， 而 且 无 法 使 用 SQL 编写 的 存储 函数 来 实 
现 的 话 ， 通 常 使 用 UDF 是 很 容易 实现 的 。 











能 力 越 大 ， 责 任 武大。 所 以 在 UDEF 中 的 一 个 错误 很 可 能 会 让 服务 器 
直接 月 尝 ， 其 至 扰乱 服务 器 的 内 存 或 者 数据 ， 男 外 ， 所 有 C 语 言 具有 的 
潜在 风险 ，UDF 也 都 有 。 



































至 少 ， 无 法 在 调用 











信和 合用 SQL 语言 编 写 存储 程序 不 同 ，UDE 无 法 读 写 数据 















































UDF 的 线程 中 使 用 当前 事务 处 理 的 上 下 文 来 读 写 数据 表 。 这 意味 着 ， 它 更 适合 用 作 计 算 或 者 与 
外 面 的 世界 交互 。MySQL 己 经 支持 越 来 越 多 的 方式 和 外 面 的 资源 交互 了 。Brian Aker 和 Patrick 
Galbraith 创 建 的 与 memcached 通 信 的 函数 就 是 一 个 UDEF 很 好 的 案例 C 






























































Z: http://tangent.org/586/Memcached_Functions_for_MySQL.html) 。 


如 果 打 算 使 用 UDF， 那 么 在 MySQL 版 本 升级 的 时 候 需 要 特别 注意 
做 相应 的 改变 ， 因 为 很 可 能 需要 重新 编译 这 些 UDF， 或 者 甚 全 需要 修改 














UDF 来 让 它 能 在 新 的 版 本 中 工作 。 还 需要 注意 的 是 ， 你 需要 确保 UDF 是 
线程 安全 的 ， 因 为 它们 需要 在 MySQL 中 执行 ， 而 MySQL 是 一 个 纯粹 的 
多 线程 环境 。 








现在 已 经 有 很 多 写 好 的 UDF 直 接 提供 给 MySQL 使 用 ， 还 有 很 多 
UDF 的 示例 可 供 参 考 ， 以 便 完成 自己 的 UDF。 现 在 UDF 最 大 的 仓库 
是 http:/www.mysqludf.org。 


下 面 是 一 个 用 户 自 定 义 函 数 NOW_USEC 0 的 代码 ， 这 个 函数 在 第 10 章 
中 我 们 将 用 它 来 测量 复制 的 速度 : 


#include <my_global.h> 
#include <my_sys.h> 
#include <mysql.h> 
#include <stdio.h> 
#include <sys/time.h> 
#include <time.h> 
#include <unistd.h> 
extern "C" { 
my_bool now_usec_init(UDF_INIT *initid, UDF_ARGS *args, ch 
char *now_usec( 
UDF_INIT *initid, 
UDF_ARGS “args, 
char *result, 
unsigned long *length, 
char *is_null, 


char *error); 


my_bool now_usec_init(UDF_INIT *initid, UDF_ARGS *args, char 
return 0; 
} 
char *now_usec(UDF_INIT *initid, UDF_ARGS *args, char *result 
unsigned long *length, char *is_null, char *er 
struct timeval tv; 
struct tm* ptm; 
char time_string[20]; /* e.g. "2006-04-27 17:10:52" */ 
char *usec_time_string = result; 
time_t t; 
/* Obtain the time of day, and convert it to a tm struct. * 
gettimeofday (&tv, NULL); 
t = (time_t)tv.tv_sec; 
ptm = localtime (&t); 
/* Format the date and time, down to a single second. */ 
| Chapter 7: Advanced MySQL Features strftime (time_string, 
/* Print the formatted time, in seconds, followed by a deci 
* and the microseconds. */ 
sprintf(usec_time_string, "%s.%06ld\n", time_string, tv.tv_ 
*length = 26; 


return(usec_time_string); 


参考 前 一 章 中 的 案例 学 习 ， 可 以 看 到 如 何 使 用 用 户 自 定 义 函 数 来 解 
决 一 些 环 手 的 问题 。 我 们 在 Percona Toolkit 中 也 使 用 了 UDF 来 完成 一 些 
工作 ， 例 如 高 效 的 数据 复制 校 验 ， 或 者 在 Sphinx 索 引 之 前 使 用 UDF 来 预 
处 理 一 些 问题 等 。UDF 是 一 款 非常 强大 的 工具 。 


7.8 插件 


除了 UDF，MySQL 还 支持 各 种 各 样 的 插件 。 这 些 插件 可 以 在 
MySQL 中 新 增 启动 选项 和 状态 值 ， 还 可 以 新 增 INFORMATI1ON_SCHEMA 
表 ， 或 者 在 MySQL 的 后 台 执 行 任 务 ， 等 等 。 在 MySQL 5.1 和 更 新 的 版 本 
中 ，MySQL 新 增 了 很 多 的 插件 接口 ， 使 得 你 无 须 直 接 修改 MySQL 的 源 
代码 就 可 以 大 大 扩展 它 的 功能 。 下 面 是 一 个 简单 的 插件 列表 。 


存储 过 程 质 件 


存储 过 程 插件 可 以 帮 你 在 存储 过 程 运行 后 再 处 理 一 次 运行 结 
果 。 这 是 一 个 很 古老 的 插件 了 ， 和 UDEF 有 些 类 似 ， 多 数 人 都 可 能 忘 
记 了 这 个 插件 的 存在 。 内 置 的 PROCEDURE ANALYSE 就 是 一 个 很 好 的 
示例 。 


后 台 醚 件 


后 台 插 件 可 以 让 你 的 程序 在 MySQL 中 运行 ， 可 以 实现 自己 的 
网 络 监 听 、 执 行 自 己 的 定期 任务 。 后 台 插 件 的 一 个 典型 例子 就 是 在 
Percona Server 中 包含 的 Handler-Socket 插 件 。 它 监听 一 个 新 的 网 络 
端口 ， 使 用 一 个 简单 的 协议 可 以 帮 你 无 须 使 用 SQL 接口 直接 访问 
InnoDB 数 据 ， 这 也 使 得 MySQL 能 够 像 一 些 NoSQL 一 样 具 有 非常 高 
的 性 能 。 





INFORMAT ION_SCHEMA 46544 


这 个 插件 可 以 提供 一 个 新 的 内 存 INFORMATION_SCHEMA 


表 。 


全 文 解析 插件 








这 个 插件 提供 一 种 处 理 文 本 的 功能 ， 可 以 根据 自己 的 需求 来 对 
一 个 文档 进行 分 词 ， 所 以 如 果 给 定 一 个 PDF 文 档 目 录 ， 可 以 使 用 这 
个 插件 对 这 个 文档 进行 分 词 处 理 。 也 可 以 用 此 来 增强 查询 执行 过 程 
中 的 词语 匹配 功能 。 


审计 插件 


审计 插件 在 查询 执行 的 过 程 中 的 某 些 固 定点 被 调用 ， 所 以 它 可 
以 用 作 ( 例 如)〉 记录 MySQL 的 事件 日 志 。 


认证 插件 


认证 插件 既 可 以 在 MySQL 客 户 端 也 可 在 它 的 服务 器 器， 可 以 
使 用 这 类 插件 来 扩展 MySQL 的 认证 功能 ， 例 如 可 以 实现 PAM 和 
LDAP 认 证 。 


要 了 解 更 多 细节 ， 可 以 参考 MySQL 的 官方 手册 ， 或 者 读 读 由 
Sergei Golubchik 和 Andrew Hutchings (Packb 编 写 的 MySQL 5.1 
Plugin Development。 如 果 你 需要 一 个 插件 ， 但 是 却 不 知道 怎么 实 
现 ， 有 很 多 公司 都 提供 这 类 咨询 服务 ， 例 如 Monty Program, Open 
Query、Percona 和 SkySQL。 


7.9 字符 集 和 校对 


字符 集 是 指 一 种 从 二 进 制 编码 到 某 类 字符 符号 的 映射 ， 可 以 参考 如 
何 使 用 一 个 字 节 来 表示 英文 字母 。* 校 对 ?是 指 一 组 用 于 某 个 字符 集 的 排 
序 规则 。MySQL 4.1 和 之 后 的 版 本 中 ， 每 一 类 编码 字符 都 有 其 对 应 的 字 
符 集 和 校对 规则 乌 。MySQL 对 各 种 字符 集 的 支持 非常 完善 ， 但 是 这 也 带 
来 了 一 定 的 复杂 性 ， 某 些 场景 下 甚至 会 有 一 定 的 性 能 牺牲 。〈 另 外 ， 曾 
经 Drizzle 放 弃 了 所 有 的 字符 集 ， 所 有 字符 全 部 统一 使 用 UTF-8。) 


























本 节 将 解释 在 实际 使 用 中 ， 你 可 能 最 需要 的 一 些 设 置 和 功能 。 如 果 
想 了 解 更 多 细节 ， 可 以 详细 地 阅读 MySQL 官 方 手 册 的 相关 章节 。 


7.9.1 MySQL 如何 使 用 字符 集 





每 种 字符 集 都 可 能 有 多 种 校对 规则 ， 并 且 都 有 一 个 默认 的 校对 规 
则 。 每 个 校对 规则 都 是 针对 茶 个 特定 的 字符 集 的 ， 和 其 他 的 字符 集 没 有 
关系 。 校 对 规则 和 字符 集 总 是 一 起 使 用 的 ， 所 以 后 面 我 们 将 这 样 的 组 合 
也 统称 为 一 个 字符 集 。 


MySQL 有 很 多 的 选项 用 于 控制 字符 集 。 这 些 选项 和 字符 集 很 容易 
混 消 ， 一 定 要 记 住 : 只 有 基于 字符 的 值 才 真 正 的 * 有 ”字符 集 的 概念 。 对 
于 其 他 类 型 的 值 ， 字 符 集 只 是 一 个 设置 ， 指 定 用 哪 一 种 字符 集 来 做 比较 
或 者 其 他 操作 。 基 于 字符 的 值 能 存放 在 茶 列 中 、 碍 询 的 字符 串 中 、 表 达 
式 的 计算 结果 中 或 者 某 个 用 户 变 量 中 ， 等 等 。 























MySQL 的 设置 可 以 分 为 两 类 : 创建 对 象 时 的 默认 值 、 在 服务 占 和 
客户 病 通 信 时 的 设置 。 


创建 对 象 时 的 默认 设置 


MySQL 服 务 器 有 默认 的 字符 集 和 校对 规则 ， 每 个 数据 库 也 有 自己 
的 默认 值 ， 每 个 表 也 有 目 己 的 默认 值 。 这 是 一 个 逐 层 继承 的 默认 设置 ， 
最 终 最 靠 确 层 的 默认 设置 将 影响 你 创建 的 对 象 。 这 些 默认 值 ， 全 上 而 下 
地 告诉 MySQL 应 该 使 用 什么 字符 集 来 存储 东 个 列 。 




















在 这 个 “阶梯 ?的 每 一 层 ， 你 都 可 以 指定 一 个 特定 的 字符 集 或 者 让 服 
Fe EAC MERU: 


。 创建 数据 库 的 时 候 ， 将 根据 服务 器 上 的 character_set_server 设 置 
来 设 定 该 数据 库 的 默认 字符 集 。 

。 创建 表 的 时 候 ， 将 根据 数据 库 的 字符 集 设置 指定 这 个 表 的 字符 集 设 
置 。 

。 创建 列 的 时 候 ， 将 根据 表 的 设置 指定 列 的 字符 集 设置 。 


需要 记 住 的 是 ， 真 正 存 放 数 据 的 是 列 ， 所 以 更 高 “ 阶 标 * 的 设置 只 是 
指定 默认 值 。 一 个 表 的 默认 字符 集 设 置 无 法 影响 存储 在 这 个 表 中 茶 个 列 
的 值 。 只 有 当 创 建 列 而 没有 为 列 指定 字符 集 的 时 候 ， 如 果 疫 有 指定 字符 
集 ， 表 的 默认 字符 集 才 有 作用 。 








服务 器 和 客户 端 通信 时 的 设置 


当 服 务 器 和 客户 疾 通 信 的 时 候 ， 它 们 可 能 使 用 不 同 的 字符 集 。 这 


时 ， 服 务 嚣 端 将 进行 必要 的 翻译 转换 工作 : 





。 服务 器 端 总 是 假设 客户 端 是 按照 character_set_client 设 置 的 字符 
来 传输 数据 和 SQL 语句 的 。 

。 当 服 务 器 收 到 客户 端的 SQL 语句 时 ， 它 先 将 其 转换 成 字符 集 
character_set_connection。 它 还 使 用 这 个 设置 来 决定 如 何 将 数据 
转换 成 字符 串 。 

。 当 服 务 费 端 返 回 数据 或 者 错误 信息 给 客户 端 时 ， 它 会 将 其 转换 


成 character_set result。 





图 7-2 展 示 了 这 个 过 程 。 





服务 器 


从 character_set_client 字符 集 
转换 为 character_sat_conneciion 


从 character_set_connection #484 
字符 character_set_result 

















图 7-2: 客户 端 和 服务 器 的 字符 集 





根据 需要 ， 可 以 使 用 SET NAMES 或 者 SET CHARACTER SET 语句 来 改变 
上 面 的 设置 。 不 过 在 服务 右上 使 用 这 个 命令 只 能 改变 服务 右 端 的 设置 。 
客户 问 程 序 和 客户 端的 API 也 需要 使 用 正确 的 字符 集 才 能 避免 在 通信 时 
出 现 问题 。 


假设 使 用 1atin1 字 符 集 (这 是 默认 字符 集 ) 打开 一 个 连接 ， 并 使 
用 SET NAMES utf8 来 告诉 服务 占 客 尸 亲 将 使 用 UTF-8 字 符 集 来 传输 数 
据 。 这 样 就 创建 了 一 个 不 匹配 的 字符 集 ， 可 能 会 导致 一 些 错误 甚至 出 现 


EREJE IM SG BP FF SEA S E H K 
#mysql_real_escape_string (0) 在 需要 的 时 候 进行 转 义 。 在 PHP 中 ， 可 
以 使 用 mysql_set_charset () 来 修改 客户 端的 字符 集 。 


MYyYSQL 如 何 比 较 两 个 字符 串 的 大 小 


如 果 比 较 的 两 个 字符 串 的 字符 集 不 同 ，MySQL 会 先 将 其 转 成 同一 
个 字符 集 再 进行 比较 。 如 果 两 个 字符 集 不 兼容 的 话 ， 则 会 抛 出 错误 ， 例 
如 “ERROR 1267(HY000) : Illegal mix of collations”。 这 种 情况 下 需 
要 通过 函数 CONVERT () 显 式 地 将 其 中 一 个 字符 串 的 字符 集 转 成 一 个 兼容 
的 字符 集 。MySQL 5.0 和 更 新 的 版 本 经 常会 做 这 样 的 隐 式 转换 ， 所 以 这 
类 错误 通常 是 在 MySQL 4.1 中 比较 常见 。 








MySQL 还 会 为 每 个 字符 串 设置 一 个 “可 转换 性 ”HW。 这 个 设置 决定 
了 值 的 字符 集 的 优先 级 ， 因 而 会 影响 MySQL 做 字符 集 隐 式 转换 后 的 
值 。 另 外 ， 也 可 以 使 用 函数 CHARSET () 、COLLATION () 、 和 
COERCIBILITY OO 来 定位 各 种 字符 集 相 关 的 错误 。 








还 可 以 使 用 前 级 和 COLLATE 子 句 来 指定 字符 串 的 字符 集 或 者 校对 字 
符 集 。 例 如， 下 面 的 示例 中 使 用 了 前 级 (由 下 画 线 开始 ) 来 指定 utf8 字 
符 集 ， 还 使 用 了 COLLATE 子 句 指定 了 使 用 二 进 制 校对 规则 


一 些 特殊 情况 





MySQL 的 字符 集 行 为 中 还 是 有 一 些 隐藏 的 “惊喜 ”的 。 下 面 列 举 了 一 
些 需要 注意 的 地 方 : 


施 民 的 character_set_database 设 置 


character_set_database 设 置 的 默认 值 和 默认 数据 库 的 设置 相 
同 。 当 改变 默认 数据 库 的 时 候 ， 这 个 变量 也 会 跟着 变 。 所 以 当 连 接 
到 MySQL 实 例 上 又 没有 指定 要 使 用 的 数据 库 时 ， 默 认 值 会 和 


character_set_server 相同 。 


LOAD DATA INFILE 








当 使 用 LOAD DATA INFILE 的 时 候 ， 数 据 库 总 是 将 文件 中 的 字符 
按照 字符 集 character_set_database 来 解析 。 在 MySQL 5.0 和 更 新 
的 版 本 中 ， 可 以 在 LOAD DATA INFILE 中 使 用 子 句 CHARACTER SET 来 
设 定 字符 集 ， 不 过 最 好 不 要 依赖 这 个 设 定 。 我 们 发 现 指定 字符 集 最 
好 的 方式 是 先 使 用 USE 指 定数 据 库 ， 再 执行 SET ”NAMES 来 设 定 字 符 
集 ， 最 后 再 加 载 数据 。MySQL 在 加 载 数据 的 时 候 ， 总 是 以 同样 的 
字符 集 人 处理 所 有 数据 ， 而 不 管 表 中 的 列 是 否 有 不 同 的 字符 集 设 定 。 














SELECT INTO OUTFILE 


MySQL 会 将 SELECT INTO OUTFILE 的 结果 不 做 任何 转 码 地 写 入 
文件 。 目 前 ， 除 了 使 用 函数 CONVERT () 将 所 有 的 列 都 做 一 次 转 码 
外 ， 还 没有 什么 别 的 办 法 能 够 指定 输出 的 字符 集 。 


BRA KA LSP 


MySQL 会 根据 character_set_client 的 设置 来 解析 转 义 序 


列 ， 即 使 是 字符 串 中 包含 前 级 或 者 COLLATE 子 句 也 一 样 。 这 是 因为 
解析 器 在 处 理 字符 串 中 的 转 义 字符 时 ， 完 全 不 关心 校对 规则 一 一 对 
解析 器 来 说 ， 前 级 并 不 是 一 个 指令 ， 它 只 是 一 个 关键 字 而 已 。 


7.9.2 ”选择 字符 集 和 校对 规则 


MySQL 4.1 和 之 后 的 版 本 文 持 很 多 的 字符 集 和 校对 规则 ， 包 括 文 持 
使 用 Unicode 编 码 的 多 字 节 UTF-8 字 符 集 (MySQL 支持 UTF-8 的 一 个 三 字 
节 子 集 ， 这 几乎 可 以 包含 世界 上 的 所 有 字符 集 〉 。 可 以 使 用 命令 SHOW 
CHARACTERSET 和 SHOW ”COLLATION 来 查看 MySQL 文 持 的 字符 集 和 校对 规 
则 。 


极 简 原则 


在 一 个 数据 库 中 使 用 多 个 不 同 的 字符 集 是 一 件 很 让 人 头疼 的 事 
情 ， 字 符 集 之 间 的 不 兼容 问题 会 很 难 纺 。 有 时 候 ， 一 切 都 看 起 来 正 
常 ， 但 是 当 某 个 特殊 字符 出 现 的 时 候 ， 所 有 类 型 的 操作 都 可 能 会 无 法 
进行 (例如 多 表 之 间 的 关联 ) 。 你 可 以 使 用 ALTER TABLE 命令 将 对 应 


列 转 成 相互 兼容 的 字符 集 ， 还 可 以 使 用 编码 前 级 和 COLLATE 子 句 将 对 
应 的 列 值 转 成 兼容 的 编码 。 


正确 的 方法 是 ， 最 好 先 为 服务 器 (或 者 数据 库 ) 选择 一 个 合理 的 
字符 集 。 然 后 根据 不 同 的 实际 情况 ， 让 某 些 列 选择 合适 的 字符 集 。 











对 于 校对 规则 通常 需要 考虑 的 一 个 问题 是 ， 是 否 以 大 小 写 敏 感 的 方 


式 比较 字符 串 ， 或 者 是 以 字符 串 编 码 的 二 进 制 值 来 比较 大 小 。 它 们 对 应 
的 校对 规则 的 前 级 分 别 是 _cs、_ci 和 _bin， 根 据 需 要 很 容易 选择 。 大 小 
写 敏 感 和 二 进 制 校对 规则 的 不 同 之 处 在 于 ， 二 进 制 校对 规则 直接 使 用 字 
符 的 字 市 进行 比较 ， 而 大 小 写 敏感 的 校对 规则 在 多 字 节 字符 集 时 ， 如 德 
语 ， 有 更 复杂 的 比较 规则 。 





在 显 式 设 置 字符 集 的 时 候 ， 并 不 是 必须 同时 指定 字符 集 和 校对 规则 
的 名 字 。 如 宁 缺 失 了 其 中 一 个 或 者 两 个 MYSQL 会 使 用 可 能 的 默认 值 
来 进行 填充 。 表 7-2 表 示 了 MySQL 如 何 选择 字符 集 和 校对 规则 。 











表 7-2: MySQL 如 何 选择 字符 集 和 校对 规则 
用 户 设置 返回 结果 的 字符 集 返 
Ed eran 
Eo 











AA 


都 未 设置 使 用 默认 值 使 用 默认 值 


下 面 的 命令 展示 了 在 创建 数据 库 、 表 、 列 的 时 候 如 何 显 式 地 指定 字 
符 集 和 校对 规则 : 


CREATE DATABASE d CHARSET latin1; 
CREATE TABLE d.t( 
coli CHAR(1), 


col2 CHAR(1) CHARSET utf8, 
col3 CHAR(1) COLLATE latin1i_bin 
) DEFAULT CHARSET=cp1251,; 





这 个 表 最 后 的 字符 集 和 校对 规则 如 下 : 


mysql> re FULL COLUMNS FROM d.t; 
+------+--------- +------------------- 十 
|Field Type | Collation 


|col1 | char(1) | cp1251 general ci | 
|col2 | char(1) | utf8 general ci | 
|col3 | char(1) | latin1 bin 

+------ +--------- +------------------- 十 


7.9.3 字符 集 和 校对 规则 如 何 影 啊 否 
询 
某 些 字符 集 和 校对 规则 可 能 会 需要 更 多 的 CPU 操作 ， 可 能 会 消耗 更 


多 的 内 存 和 存储 空间 ， 甚 至 还 会 影响 索引 的 正常 使 用 。 所 以 在 选择 字符 
集 的 时 候 ， 也 有 一 些 需 要 注意 的 地 方 。 











不 同 的 字符 集 和 校对 规则 之 间 的 转换 可 能 会 带 来 额外 的 系统 开销 。 
例如 ， 数 据 表 saki la. film 在 列 title 上 有 索引 ， 可 以 加 速 下 面 的 ORDER 
BY 查询 : 


mysql> EXPLAIN SELECT title, release_year FROM sakila.film OR 
FOO IO IO ICICI IO IOC ICGIICE J, pow III II TOI IOI TO IO ak 
id: 1 
select_type: SIMPLE 
table: film 


type: index 
possible_keys: NULL 
key: idx_title 
key_len: 767 
ref: NULL 
rows: 953 


Extra: 





只 有 排序 查询 要 求 的 字符 集 与 服务 器 数 据 的 字符 集 相 同 的 时 候 ， 才 
能 使 用 索引 进行 排序 。 索 引 根据 数 据 列 的 校对 规则 名 进行 排序 ， 这 里 
使 用 的 是 utf8_general_ci。 如 采 硕 望 使 用 别 的 校对 规则 进行 排序 ， 那 
么 MySQL 束 需要 使 用 文件 排序 : 











mysql> EXPLAIN SELECT title, release year 
-> FROM sakila.film ORDER BY title COLLATE utf8_bin\G 
FOI IOI IO IO ICICI IO IOI OICGIIG J, pow IOI III TOI IOI TO IO Ik 
id: 1 
select_type: SIMPLE 
table: film 
type: ALL 
possible_keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 953 


Extra: Using filesort 





为 了 能 够 适应 各 种 字符 集 ， 包 括 客户 新 字符 集 、 在 查询 中 显 式 指定 





的 字符 集 ，MySQL 会 在 需要 的 时 候 进 行 字符 集 转换 。 例 如 ， 当 使 用 两 
个 字符 集 不 同 的 列 来 关联 两 个 表 的 时 候 ，MySQL 会 尝试 转换 其 中 一 个 
列 的 字符 集 。 这 和 在 数据 列 外 面 封装 一 个 函数 一 样 ， 会 让 MySQL 无 法 
使 用 这 个 列 上 的 和 索引。 如果 你 不 确定 MySQL 内 部 是 否 做 了 这 种 转换 ， 
可 以 在 EXPLAIN EXTENDED 后 使 用 SHOW WARNINGS 来 查看 MySQL 是 如 何 处 
理 的 。 从 输出 中 可 以 看 到 查询 中 使 用 的 字符 集 ， 也 可 以 看 出 MySQL 是 
盏 做 了 字符 集 转换 操作 。 


UTF-8 是 一 种 多 字 节 编码 ， 它 存储 一 个 字符 会 使 用 变 长 的 字 节 数 
《一 到 三 个 字 节 ) 。 在 MySQL 内 部 ， 通 常 使 用 一 个 定 长 的 空间 来 存储 
字符 串 ， 再 进行 相关 操作 ， 这 样 做 的 目的 是 希望 总 是 保证 缓存 中 有 足够 
的 空间 来 存储 字符 串 。 例 如 ， 一 个 编码 是 UTF-8 的 CHAR (10) 需要 30 个 字 
节 ， 即 使 最 终 存 储 的 时 候 没 有 存储 任何 “多 字 节 ”字符 也 是 一 样 。 变 长 的 
字段 类 型 (VARCHAR TEXT) 存储 在 磁盘 上 时 不 会 有 这 个 困扰 ， 但 当 它 存 
储 在 临时 表 中 用 来 处 理 或 者 排序 时 ， 也 总 是 会 分 配 最 大 可 能 的 长 度 。 











在 多 字 节 字符 集中 ， 一 个 字符 不 再 是 一 个 字 节 。 所 以 ， 在 MySQL 
中 有 两 个 函数 LENGTH () 和 CHAR_LENGTH (来 计算 字符 串 的 长 度 ， 在 多 字 
节 字 符 集 中 ， 这 两 个 函数 的 返回 结果 会 不 同 。 如 果 使 用 的 是 多 字 节 字符 
集 ， 那 么 确保 在 统计 字符 集 的 时 候 使 用 CHAR_LENGTH 0) 。“〈 例 如 需要 
{SUBSTRING () 操作 的 时 候 ) 。 其 实 ， 在 应 用 程序 中 也 同样 要 注意 多 字 
节 字 符 集 的 这 个 问题 。 

















另 一 个 “惊喜 ?可 能 是 关于 索引 限制 方面 的 。 如 果 要 索引 一 个 UTF-8 
字符 集 的 列 ， MySQL 会 假设 每 一 个 字符 部 是 三 个 字 节 ， 所 以 最 长 案 引 
前 缀 的 限制 一 下 缩短 到 原来 的 三 分 之 一 了 : 


mysql> CREATE TABLE big string(str VARCHAR(500), KEY(str)) DEFAULT CHARSET=utf8; 
Query OK, O rows affected, 1 warning (0.06 sec) 


mysql> SHOW WARNINGS; 

+--------- +------ +--------------------------------------------------------- 十 
| Level | Code | Message | 
+--------- +------ +--------------------------------------------------------- 十 


| Warning | 1071 | Specified key was too long; max key length is 999 bytes | 
+ + + 





注意 到 ，MySQL 的 索引 前 级 自动 缩短 到 333 个 字符 了 : 


mysql> SHOW CREATE TABLE big string\6 
FOI IO IO ICICI IOI ICICI III ITO III TO IO Ik 
Table: big_string 
Create Table: CREATE TABLE “big_string’ ( 
"Str varchar(500) default NULL, 
KEY Str (“str (333) ) 
) ENGINE=MyISAM DEFAULT CHARSET=utf8 


如 果 你 不 注意 警告 信息 也 没有 再 重新 检查 表 的 定义 ， 可 能 不 会 注意 
到 这 里 仅仅 是 在 该 列 的 前 缀 上 建立 了 索引 。 这 会 对 MYSQL 使 用 索引 有 
一 些 影响 ， 例 如 无 法 使 用 索引 黎 盖 扫描 。 








也 有 人 建议 ， 直 接 使 用 UTF-8 字 符 集 ,，“ 整 个 世界 者 清净 了 ”。 不 过 
从 性 能 的 角度 来 看 这 不 是 一 个 好 主意 。 根 据 存储 的 数据 ， 很 多 应 用 无 须 
使 用 UTF-8 字 符 集 ， 如 果 坚 持 使 用 UTF-8， 只 会 消耗 更 多 的 磁盘 空间 。 











在 考虑 使 用 什么 字符 集 的 时 候 ， 需 要 根据 存储 的 具体 内 存 来 决定 。 
例如 ， 存 储 的 内 容 主 要 是 英文 字符 ， 那 么 即使 使 用 UTF-8 也 不 会 消耗 太 
多 的 存储 空间 ， 因 为 英文 字符 在 UTF-8 字 符 集中 仍然 使 用 一 个 字 节 。 但 
如 果 需 要 存储 一 些 非 拉丁 语系 的 字符 ， 如 俄语 、 阿 拉 伯 语 ， 那 么 区 别 会 
很 大 。 如 果 应 用 中 只 需要 存储 阿拉 伯 语 ， 那 么 可 以 使 用 cp1256 字 符 集 ， 
这 个 字符 集 可 以 用 一 个 字 节 表示 所 有 的 阿拉 伯 语 字符 。 如 果 还 需要 存储 








别 的 语言 ， 那 么 就 应 该 使 用 UTF-8 了 ， 这 时 相同 的 阿拉 伯 语 字符 会 消耗 
更 多 的 空间 。 类 似 地 ， 当 从 某 个 上 基体 的 语种 编码 转换 成 UTF-8 时 ， 存 储 
空间 的 使 用 会 相应 增加 。 如 果 使 用 的 是 InnoDB 表 ， 那 么 字符 集 的 改变 
可 能 导致 数据 的 大 小 超过 可 以 在 页 内 存储 的 临界 值 ， 需 要 保存 在 额外 的 
外 部 存储 区 ， 这 会 导致 很 严重 的 空间 少 费 ， 还 会 市 来 很 多 空间 舱 片 。 


有 时 候 根 本 不 需要 使 用 任何 的 字符 集 。 通 常 只 有 在 做 大 小 写 无 关 的 
比较 、 排 序 、 字 符 串 操作 (例如 SUBSTRING0 的 时 候 才 需要 使 用 字符 
集 。 如 果 你 的 数据 库 不 关心 字符 集 ， 那 么 可 以 直接 将 所 有 的 东西 存储 到 
二 进 制 列 中 ， 包 括 UTF-8 编 码 数据 也 可 以 存储 在 其 中 。 这 么 做 ， 可 能 还 
需要 一 个 列 记录 字符 的 编码 集 。 虽 然 很 多 人 一 直 都 是 这 么 用 的 ， 但 还 是 
有 不 少 事 项 需要 注意 。 这 会 导致 很 多 难以 排查 的 错误 ， 例 如 ， 忘 记 了 多 
个 字 节 才 是 一 个 字符 时 ， 还 继续 使 用 SUBSTRING () 和 LENGTH () 做 字符 串 
操作 ， 就 会 出 错 。 如 果 可 能 ， 我 们 建议 尽量 不 要 这 样 做 。 








710 ”全文 索引 


通过 数值 比较 、 范 围 过 小 等 融 可 以 完成 绝 大 多 数 我 们 需要 的 碍 询 
了 。 但 是 ， 如 果 你 希望 通过 关键 字 的 匹配 来 进行 查询 过 滤 ， 那 么 就 需要 
基于 相似 度 的 查询 ， 而 不 是 原来 的 精确 数值 比较 。 全 文 索引 吏 是 为 这 种 
场景 设计 的 。 














全 文 索引 有 着 目 己 独特 的 语法 。 没 有 索引 也 可 以 工作 ， 如 果 有 索引 
效率 会 更 局 。 用 于 全 文 搜索 的 索引 有 着 独特 的 结构 ， 玫 助 这 类 碍 询 找到 
匹配 东 些 关键 字 的 记录 。 














你 可 能 没有 在 意 过 全 文 索引 ， 不 过 至 少 应 该 对 一 种 全 文 索引 技术 比 
BAAS: 互联 网 搜索 引擎 。 虽 然 这 类 搜索 引擎 的 索引 对 象 是 超大 量 的 数 
据 ， 并 且 通 闻 其 背后 都 不 是 关系 型 数据 库 ， 不 过 全 文 索引 的 基本 原理 都 
是 一 样 的 。 





全 文 索引 可 以 文 持 各 种 字符 内 容 的 搜索 〈 包 括 CHAR、VARCHAR 和 
TEXT 类 型 ) ， 也 文 持 自然 语言 搜索 和 布尔 搜索 。 在 MySQL 中 全 文 索引 
有 很 多 的 限制 2， 其 实现 也 很 复杂 ， 但 是 因为 它 是 MySQL 内 置 的 功 
能 ， 而 且 满 足 很 多 基本 的 搜索 需求 ， 所 以 它 的 应 用 仍然 非常 广泛 。 本 章 
我 们 将 介绍 如 何 使 用 全 文 索 引 ， 以 及 如 何 为 应 用 设计 更 高 性 能 的 全 文 索 
引 。 在 本 书 编写 时 ， 在 标准 的 MySQL 中 ， 只 有 MYyISAM 引 擎 支持 全 文 索 
引 。 不 过 在 还 没有 正式 发 布 的 MySQL 5.6 中 ，InnoDB 已 经 实验 性 质地 支 
持 全 文 索引 了 。 除 此 ， 还 有 第 三 方 的 存储 引擎 ， 如 Groonga， 也 文 持 全 
XR 











事实 上 ，MYyISAM 对 全 文 索引 的 文 持 有 很 多 的 限制 ， 例 如 表 级 别 锁 
对 性 能 的 影响 、 数 据 文件 的 骨 涡 、 毅 误 后 的 恢复 等 ， 这 使 得 MyYISAM 的 
全 文 索引 对 于 很 多 应 用 场景 并 不 合适 。 所 以 ， 多 数 情况 下 我 们 建议 使 用 
别 的 解决 方案 ， 例 如 Sphinx、Lucene、Solr、Groonga、Xapian 或 者 
Senna， 再 或 者 可 以 等 MySQL 5.6 版 本 正式 发 布 后 ， 直 接 使 用 InnoDB 的 
全 文 索引 。 如 果 MyISAM 的 全 文 索引 确实 能 满足 应 用 的 需求 ， 那 么 可 以 
AK BE [i] PLAS 








MyISAM 的 全 文 索引 作用 对 象 是 一 个 “全 文集 合 ”， 这 可 能 是 某 个 数 
据 表 的 一 列 ， 也 可 能 是 多 个 列 。 有 具体 的 ， 对 数据 表 的 某 一 条 记录 ， 
MySQL 会 将 需要 索引 的 列 全 部 拼接 成 一 个 字符 串 ， 然 后 进行 索引 。 





MyISAM 的 全 文 索引 是 一 类 特殊 的 B-Tree 索 引 ， 共 有 两 层 。 第 一 层 
古 所 有 关键 字 ， 然 后 对 于 每 一 个 关键 字 的 第 二 层 ， 包 含 的 是 一 组 相关 
的 “文档 指针 ”。 全 文 索引 不 会 索引 文档 对 象 中 的 所 有 词语 ， 它 会 根据 如 
下 规则 过 滤 一 些 词 语 : 

















。 停 用 词 列 表 中 的 词 都 不 会 被 索引 。 默 认 的 停 用 词根 据 通用 瑞 语 的 使 
用 来 设置 ， 可 以 使 用 参数 ft_stopword_ file 指定 一 组 外 部 文件 来 使 
用 目 定 义 的 停 用 词 。 

e 对 于 长 度 大 于 ft_min_word_len 的 词语 和 长 度 小 于 ft_max_word_len 
的 词语 ， 都 不 会 被 索引 。 





全 文 索引 并 不 会 存储 关键 字 具 体 匹 配 在 哪 一 列 ， 如 果 需 要 根据 不 同 
的 列 来 进行 组 合 奋 询 ， 那 么 不 需要 针对 每 一 列 来 建立 多 个 这 类 索引 。 


这 也 意味 着 不 能 在 MATCH “AGAINST 子 句 中 指定 哪个 列 的 相关 性 更 重 
要 。 通 常 构建 一 个 网 站 的 搜索 引擎 是 需要 这 样 的 功能 ， 例 如 ， 你 可 能 





望 优先 搜索 出 那些 在 标题 中 出 现 过 的 文档 对 象 。 ai 
则 需要 编写 更 复杂 的 查询 语句 。〔 后 面 将 会 为 大 家 展示 如 何 实现 。 


7.10.1 目 然 语言 的 全 文 索引 


目 然 语言 搜索 引擎 将 计算 每 一 个 文档 对 象 和 查询 的 相关 度 。 这 里 
相关 上 度 是 基于 匹配 的 关键 词 个 数 ， 以 及 关键 词 在 文档 中 出 现 的 次 数 。 在 
整个 索引 中 出 现 次 数 越 少 的 词语 ， 匹 配 时 的 相关 上 度 就 越 高 。 相 反 ， 非 党 
常见 的 单词 将 不 会 搜索 ， 即 使 不 在 停 用 词 列表 中 出 现 ， 如 果 一 个 词语 在 
超过 50% 的 记录 中 都 出 现 了 ， 那 么 自然 语言 搜索 将 不 会 搜索 这 类 词 
if, 03 




















全 文 索引 的 语法 和 普通 得 询 略 有 不 同 。 可 以 根据 WHERE 子 句 中 的 
MATCH “AGAINST 来 区 分 查询 是 否 使 用 全 文 索引 。 我 们 来 看 一 个 示例 。 在 
标准 的 数据 库 Sakila 中 ， 数 据 表 fi lm_text 在 字段 title 和 description 上 
建立 了 全 文 索引 : 


mysql> SHOW INDEX FROM sakila.film_text; 


+-----------+-----------------------+-------------+------------+ 
i E E aA 


p 
| film text | idx_title_description | title | FULLTEXT | 
| film_text | idx title description | description | FULLTEXT | 


+-----------+-----------------------+-------------+------------+ 





下 面 是 一 个 使 用 自然 语言 搜索 的 奋 询 : 


mysql> SELECT film_id, title, RIGHT(description, 25), 
-> MATCH(title, description) AGAINST('factory casualties’) AS relevance 
> FROM sakila.film_text 
inca MATCH(title, sii AGAINST(' factory — Js 


+---------+-----------------------+---------------------------+----------------- 十 
| film id 1 title RIGHT(description, 25) | relevance 
+--------- +-----------------------+--------------------------- +----------------- 十 
| 831 | SPIRITED CASUALTIES | a Car in A Baloon Factory | 8.4692449569702 | 
| 126 | CASUALTIES ENCINO | Face a Boy in A Monastery | 5.2615661621094 

| 193 | CROSSROADS CASUALTIES | a Composer in The Outback | 5.2072987556458 | 
| 369 | GOODFELLAS SALUTE | d Cow in A Baloon Factory | 3.1522686481476 | 
| 451 | IGBY MAKER | a Dog in A Baloon Factory | 3.1522686481476 | 


MySQL 将 搜索 词语 分 成 两 个 独立 的 关键 词 进行 搜索 ， 搜 索 在 title 
和 description 字 段 组 成 的 全 文 索引 上 进行 。 注 意 ， 只 有 一 条 记录 同时 
包含 全 部 的 两 个 关键 词 ， 有 三 个 查询 结果 只 包含 关键 字 “casualties”( 这 
ETRE RAN FE 含 该 关键 词 的 记录 ) ， 这 三 个 结果 都 在 结果 列 
表 的 前 面 。 这 是 因为 查询 结果 是 根据 与 关键 词 的 相似 度 来 进行 排序 的 。 























gp J 和 背 通 查询 不 同 这 类 和 查询 自动 按照 相似 度 进行 排序 。 在 使 用 全 文 索引 进行 排序 的 






































时 候 ，MySQL 无 法 再 使 用 索引 排序 。 所 以 如 果 不 想 使 用 文件 排序 的 话 ， 那 么 就 不 要 在 查询 中 使 
用 ORDER BY 子 句 。 




















从 上 面 的 示例 可 以 看 到 ， 函 数 MATCH () 将 返回 关键 词 匹配 的 相关 
度 ， 征 一 个 浮 点 数字 。 你 可 以 根据 相关 度 进 行 匹 配 ， 或 者 将 此 直接 展现 
给 用 户 。 在 一 个 查询 中 使 用 两 次 MATCH () 函数 并 不 会 有 额外 的 消耗 ， 
MySQL 会 自动 识别 并 只 进行 一 次 搜索 。 不 过 ， 如 果 你 将 MATCH O 函数 放 
到 ORDER BY 子 句 中 ，MySQL 将 会 使 用 文件 排序 。 





Een eae 
E, PMU a 这 是 因为 全 文案 引 不 会 记录 关键 字 是 来 
目 哪 一 列 的 。 




















ZAIN 











这 也 意味 着 无 法 使 用 全 文 索引 来 查询 某 个 关键 字 是 否 在 某 一 列 中 存 
在 。 这 里 介绍 一 个 绕 过 该 问题 的 办 法 : 根据 关键 词 在 多 个 不 同 列 的 全 文 


索引 上 的 相关 度 来 算出 排名 值 ， 然 后 依 此 来 排序 。 我 们 可 以 在 某 一 列 上 
加 上 如 下 索引 : 


mysql> ALTER TABLE film_text ADD FULLTEXT KEY(title) ; 


这 样 ， 我 们 可 以 将 title 匹 配 乘 以 2 来 提高 它 的 相似 度 的 权重 : 


mysql> SELECT film_id, RIGHT(description, 25), 
-> ROUND(MATCH(title, description) AGAINST('factory casualties’), 3) 
-> AS full rel, 
-> ROUND(MATCH(title) AGAINST('factory casualties'), 3) AS title_rel 
-> FROM sakila.film_text 
-> WHERE MATCH(title, description) AGAINST('factory casualties’) 
-> ORDER BY (2 * MATCH(title) AGAINST('factory casualties')) 
-> + MATCH(title, description) AGAINST('factory casualties') DESC; 
+ + 











+--------- +--------------------------- +----------+----------- 
film id | RIGHT(description, 25) | full_rel | title_rel 
+--------- +-------------- ------------ +---------- +----------- 十 
831 | a Car in A Baloon Factory | 8.469 5.676 
126 | Face a Boy in A Monastery | 5.262 5.676 
299 | jack in The Sahara Desert | 3.056 6.751 
193 | a Composer in The Outback | 5.207 5.676 
369 | d Cow in A Baloon Factory | 3.152 0.000 
451 | a Dog in A Baloon Factory | 3.152 0.000 
595 | a Cat in A Baloon Factory | 3.152 0.000 
649 | nizer in A Baloon Factory | 3.152 0.000 





因为 上 面 的 查询 需要 做 文件 排序 ， 所 以 这 并 不 是 一 个 高 效 的 做 法 。 


7.10.2 ”布尔 全 文 索引 


在 布尔 搜索 中 ， 用 户 可 以 在 查询 中 自 定义 某 个 被 搜索 的 词语 的 相关 
性 。 布 尔 搜索 通过 信用 词 列 表 过 滤 掉 那些 “噪声 * 词 ， 除 此 之 外 ， 布 尔 搜 
索 还 要 求 搜索 关键 词 长 度 必须 大 于 ft_min_word_len， 同 时 小 于 
ft_max_word_lend 多 。 搜 索 返 回 的 结果 是 未 经 排序 的 。 











当 编 写 一 个 布尔 搜索 查询 时 ， 可 以 通过 一 些 前 级 修饰 符 来 定制 搜 
索 。 表 7-3 列 出 了 最 常用 的 修饰 符 。 


表 7-3: 布尔 全 文 索引 通用 修饰 符 










Example Meaning 


me iene 


em p 
EJ 


还 可 以 使 用 其 他 的 操作 ， 例 如 使 用 括号 分 组 。 基 于 此 ， 就 可 以 构造 
出 一 些 复杂 的 搜索 碍 询 。 





还 是 继续 用 saki la.film_text 来 举例 ， 现 在 我 们 需要 搜索 既 包含 
词 “factory” 又 包含 “casualties” 的 记录 。 在 前 面 ， 我 们 已 经 使 用 自然 语言 
搜索 得 询 实现 找到 这 两 个 词 中 的 任何 一 个 的 SQL 写法 。 使 用 布尔 搜索 碍 
询 ， 我 们 可 以 指定 返回 结果 必须 同时 包含 “factory” 和 “casualties”: 


mysql> SELECT film id, title, RIGHT(description, 25) 
-> FROM sakila.film text 
-> WHERE MATCH(title, description) 
-> AGAINST('+factory +casualties' IN BOOLEAN MODE); 


+--------- +--------------------- +--------------------------- 十 
| film_id | title | RIGHT(description, 25) | 
+--------- +---------------------+--------------------------- 十 
| 831 | SPIRITED CASUALTIES | a Car in A Baloon Factory | 
+--------- +--------------------- +--------------------------- 十 





得 询 中 还 可 以 使 用 括号 进行 “短语 搜索 ”*， 让 返回 结果 精确 匹配 指定 
的 短语 : 


mysql> SELECT film_id, title, RIGHT(description, 25) 
-> FROM sakila.film_text 
-> WHERE MATCH(title, description) 
= AGAINST('"spirited casualties"' IN BOOLEAN MODE); 


+--------- +--------------------- +--------------------------- + 
| film id | title | RIGHT (description, 25) 

+--------- +--------------------- +--------------------------- + 
| 831 | SPIRITED CASUALTIES | a Car in A Baloon Factory | 
+--------- +--------------------- +--------------------------- + 


RATE FL ZR IIR BE oe EEI. JA EA ECR I ETS AT 2 
ACRE TE A), GEIR re OE io EROARE. HF 
需要 进行 回 表 过 滤 ， 所 以 速度 会 很 慢 。 











要 完成 上 面 的 查询 ，MySQL 需 要 先 从 索引 中 找 出 所 有 同时 包 

含 “spirited” 和 “casualties” 的 索引 条 目 ， 然 后 取出 这 些 记 录 再 判断 是 否 是 
精确 匹配 短语 。 因 为 这 个 操作 会 和 完 从 索引 中 过 滤 出 一 些 记录 ， 所 以 通常 
认为 这 样 做 的 速度 是 很 快 的 一 一 比 LIKE 操 作 要 快 很 多 。 事 实 上 ， 这 样 
做 的 确 很 快 ， 但 是 搜索 的 关键 词 不 能 是 太 第 见 的 词语 。 如 果 搜 索 的 关键 
词 太 常见 ， 因 为 前 一 步 的 过 滤 会 返回 太 多 的 记录 需要 判断 ， 因 此 LIKE 操 
作 反 而 更 快 。 这 种 情况 下 LIKE 操 作 是 完全 的 顺序 读 ， 相 比索 引 返 回 值 的 
随机 读 ， 会 快 很 多 。 




















只 有 MyISAM3 引 擎 才能 使 用 布尔 全 文 罕 引 ， 但 并 不 是 一 定 要 有 全 文 
索引 才能 使 用 布尔 全 文 搜 索 。 当 没有 全 文案 引 的 时 候 ，MySQL 残 通过 
全 表 扫 搬 来 实现 。 所 以 ， 你 甚至 还 可 以 在 多 表 上 使 用 布尔 全 文案 引 ， 例 
如 在 一 个 关联 结果 上 进行 。 只 不 过 ， 因 为 是 全 表 扫 描 ， 速 度 可 能 会 很 


慢 。 


7.10.3 MySQL 5.1 中 全 文 索引 的 变化 


MySQL 5.1 中 引入 了 一 些 和 全 文 索引 相关 的 改进 ， 包 括 一 些 性 能 


上 的 提升 和 新 增 插件 式 的 解析 ， 通 过 此 用 户 可 以 自己 定制 增强 搜索 功 

能 。 例 如 ， 插 件 可 以 改变 索引 文本 的 方式 。 可 以 用 更 灵活 的 方式 进行 分 
词 〈 例 如 ， 可 以 指定 C++ 作为 一 个 单独 的 词语 ) 、 预 处 理 、 可 以 对 不 同 
的 文档 类 型 进行 索引 《如 PDF) ， 还 可 以 做 一 些 自 定义 的 词 干 规 则 。 插 
件 还 可 以 直接 影响 全 文 搜 索 的 工作 方式 一 一 例如 ， 直 接 使 用 词 干 进行 搜 
索 。 


7.10.4 全文 索 引 的 限制 和 痊 代 方案 


MySQL 的 全 文 索引 实现 有 很 多 的 设计 本 吴 带 来 的 限制 。 在 茶 些 场 
景 下 这 些 限制 是 致命 的 ， 不 过 也 有 很 多 办 法 绕 过 这 些 限 制 。 

















例如 ，MySQL 全 文 索引 中 只 有 一 种 判断 相关 性 的 方法 : WI R 
引 也 不 会 记录 索引 词 在 字符 串 中 的 位 置 ， 所 以 位 置 也 就 无 法 用 在 相关 性 
上 。 虽 然 大 多 数 情况 下 ， 尤 其 是 数据 量 很 小 的 时 候 ， 这 些 限 制 都 不 会 影 
响 使 用 ， 但 也 可 能 不 是 你 所 想 要 的 。 而 且 MySQL 的 全 文 索引 也 没有 提 
供 其 他 可 选 的 相关 性 排序 算法 。〔 它 无 法 存储 基于 相对 位 置 的 相关 性 排 
序数 据 。) 

















数据 量 的 大 小 也 是 一 个 问题 。MySQL 的 全 文 索引 只 有 全 部 在 内 存 
中 的 时 候 ， 性 能 才 非 常 好 。 如 有 果 内 存 无 法 装载 全 部 索引 ， 那 么 搜索 速度 
可 能 会 非常 慢 。 当 你 使 用 精确 短语 搜索 时 ， 想 要 好 的 性 能 ， 数 据 和 索引 
都 需要 在 内 存 中 。 相 比 其 他 的 索引 类 型 ， 当 1NSERT、UPDATE 和 DELETE 操 
作 进 行 时 ， 全 文 索引 的 操作 代价 都 很 大 : 


。 修改 一 段 文本 中 的 100 个 单词 ， 需 要 100 次 索引 操作 ， 而 不 是 一 次 。 
。 一 般 来 说 列 长 度 并 不 会 太 影响 其 他 的 索引 类 型 ， 但 是 如 果 古 全 文 过 


引 ， 三 个 单词 的 文本 和 10000 个 单词 的 文本 ， 性 能 可 能 会 相差 几 个 
数量 级 。 

全 文 索引 会 有 更 多 的 雁 片 ， 可 能 需要 做 更 多 的 OPTIMIZE ”TABLE 操 
作 。 





全 文 索引 还 会 影响 查询 优化 器 的 工作 。 索 引 选 择 、WHERE 子 








~ ORDER BY 都 有 可 能 不 是 按照 你 所 预想 的 方式 来 工作 : 


如 有 果 查 询 中 使 用 了 MATCH AGAINST 子 句 ， 而 对 应 列 上 又 有 可 用 的 全 
文 索引 ， 那 么 MySQL 就 一 定 会 使 用 这 个 全 文 索引 。 这 时 ， 即 使 有 

其 他 的 索引 可 以 使 用 ，MySQL 也 不 会 去 比较 到 底 哪个 索引 的 性 能 

更 好 。 所 以 ， 即 使 这 时 有 更 合适 的 索引 可 以 使 用 ， MySQL 仍然 会 
置之不理 。 

全 文 索引 只 能 用 作 全 文 搜 索 匹 配 。 任 何其 他 操作 ， 如 WHERE 条 件 比 

较 ， 都 必须 在 MySQL 完 成 全 文 搜 索 返 回 记录 后 才能 进行 。 这 和 其 

他 普通 索引 不 同 ， 例 如 ， 在 处 理 WHERE 条 件 时 ，MySQL 可 以 使 用 普 
通 索 引 一 次 判断 多 个 比较 表达 式 。 

全 文 索引 不 存储 索引 列 的 实际 值 。 也 就 不 可 能 用 作 索 引用 盖 扫描 。 

除了 相关 性 排序 ， 全 文 索引 不 能 用 作 其 他 的 排序 。 如 果 碍 询 需 要 做 
相关 性 以 外 的 排序 操作 ， 都 需要 使 用 文件 排序 。 











让 我 们 看 看 这 些 限 制 如 何 影响 查询 语句 。 来 看 一 个 例子 ， 假 设 有 一 


百 万 个 文档 记录 ， 在 文档 的 作者 author 字 段 上 有 一 个 普通 的 索引 ， 在 文 
档 内 容 字段 content 上 有 全 文 索引 。 现 在 我 们 要 搜索 作者 是 123， 文 档 中 
又 包含 特定 词语 的 文档 。 很 多 人 可 能 会 按照 下 面 的 方式 来 写 碍 询 语句 : 





. WHERE MATCH(content) AGAINST ('High Performance MySQL' ) 


AND author = 123; 


而 实际 上 ， 这 样 做 的 效率 非常 低 。 因 为 这 里 使 用 了 MATCH 
AGAINST， 而 且 恰 好 上 面 有 全 文 索引 ， 上 所 以 MySQL 优 先 选 择 使 用 全 文 过 
引 ， 即 先 搜 索 所 有 的 文档 ， 查 找 是 否 有 包含 关键 词 的 文档 ， 然 后 返回 记 
录 看 看 作者 是 否 是 123。 所 以 这 里 也 就 没有 使 用 author 字 段 上 的 索引 。 














一 个 蔡 代 方案 是 将 author 列 包含 到 全 文 索 引 中 。 可 以 在 author 列 的 值 
前 面 附 上 一 个 不 第 见 的 前 级 ， 然 后 将 这 个 带 前 缀 的 值 存 放 到 一 个 单独 的 
filters 列 中 ， 并 单独 维护 该 列 ( 也 许可 以 使 用 触发 器 来 做 维护 工 
VE) 


这 样 就 可 以 扩展 全 文 索引 ， 使 其 包含 fi lters 列 ， 上 面 的 查询 就 可 
以 改写 为 : 


. WHERE MATCH(content, filters) 


AGAINST ('High Performance MySQL +author_id_123' IN BOOLE 


这 个 案例 中 ， 如 果 author 列 的 选择 性 非常 高 ， 那 么 MySQL 能 够 根据 
作者 信息 很 快 地 将 需要 过 滤 的 文档 记录 限制 在 一 个 很 小 的 范围 内 ， 这 个 
查询 的 效率 也 就 会 非常 好 。 如 果 author 列 的 选择 性 很 低 ， 那 么 这 个 替代 
方案 的 效率 会 比 前 面 那个 更 糟 ， 所 以 使 用 的 时 候 要 谍 慎 。 





全 文 索引 有 时 候 还 可 以 实现 一 些 简单 的 “边框 ?搜索 。 例 如 ， 和 希望 搜 
索 某 个 坐标 范围 时 ， 将 坐标 按 某 种 方式 转换 成 文本 再 进行 全 文 索引 。 假 
设 某 条 记录 的 坐标 为 X=123 和 Y=456。 可 以 按照 这 样 的 方式 交错 存储 坐 
bp: XY142536， 然 后 对 此 进行 全 文 索引 。 这 时 ， 和 希望 查询 某 和 矩形 一 一 X 
取 值 100 至 199，Y 取 值 400 至 499 一 一 范围 时 ， 可 以 在 查询 直接 搜 
索 “+XY14*”。 这 上 比 使 用 WHERE 条 件 过 滤 的 效率 要 高 很 多 。 











全 文 索引 的 另 一 个 闻 用 技巧 是 缓存 全 文 索 引 返 回 的 主键 值 ， 这 在 分 





DAS IN RE REH. SMA REL R, HIDE BE 
值 将 所 有 需要 的 数据 返回 。 这 个 查询 就 可 以 目 由 地 使 用 其 他 索引 、 或 者 
目 由 地 关联 其 他 表 。 





虽然 只 有 MyISAM 表 文 持 全 文 索引 ， 但 是 如 果 仍 然 硕 望 使 用 mnoDB 
或 其 他 引擎 ， 可 以 将 原 表 复 制 到 一 个 备 库 ， 再 将 备 库 上 的 表 改 成 
MyISAM 并 建 上 相应 的 全 文 索引 。 如 果 不 希望 在 另 一 个 服务 器 上 完成 查 
询 ， 还 可 以 对 表 进 行 垂直 拆 分 ， 将 需要 索引 的 列 放 到 一 个 单独 的 
MVyISAM 表 中 。 





将 需要 索引 的 列 额外 地 元 余 在 另 一 个 MyISAM 表 中 也 是 一 个 办 法 。 
在 测试 库 中 saki la. film_text 束 是 使 用 这 个 策略， 这 里 使 用 触发 器 来 维 
护 这 个 表 的 数据 。 最 后 ， 你 还 可 以 使 用 一 个 包含 内 置 全 文 索引 的 引擎 ， 
如 Lucene 或 者 Sphinx。 更 多 关于 Shpinx 的 内 容 请 参考 附录 F。 








因为 使 用 全 文 索引 的 时 候 ， 通 第 会 返回 大 量 结果 并 产生 大 量 随机 
IO， 如 果 和 GROUP ”BY 一 起 使 用 的 话 ， 还 需要 通过 临时 表 或 者 文件 排序 
进行 分 组 ， 性 能 会 非常 非常 焕 糕 。 这 类 查询 通常 只 是 希望 查询 分 组 后 的 
前 几 名 结果 ， 所 以 一 个 有 效 的 优化 方法 是 对 结果 集 进行 抽样 而 不 是 精确 
计算 。 例 如 ， 仅 查询 前 面 的 1000 条 记录 ， 进 行 分 组 并 返回 前 几 名 的 结 
果 。 


7.10.5 全文 索引 的 配置 和 优化 


全 文 索引 的 日 党 维护 通 冲 能 够 大 大 提升 性 能 。“ 双 B-Tree” 的 特殊 结 
构 、 在 茶 些 文档 中 比 其 他 文档 要 包含 多 得 多 的 关键 字 ， 这 都 使 得 全 文 索 
引 比 起 普通 索引 有 更 多 的 碎片 问题 。 所 以 需要 经 第 使 用 0PTIMIZE TABLE 
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可 以 让 性 能 提升 很 多 。 


如 果 和 希望 全 文 索引 能 够 高 效 地 工作 ， 还 需要 保证 索引 绥 存 足够 大 ， 
从 而 保证 所 有 的 全 文 索引 都 能 够 缓存 在 内 存 中 。 通 和 党 ， 可 以 为 全 文 索引 
设置 单独 的 键 缓存 (Key cache) ， 保 证 不 会 被 其 他 的 索引 缓存 挤 出 内 
存 。 键 缓存 的 配置 和 使 用 可 以 参考 第 8 章 。 








提供 一 个 好 的 停 用 词 表 也 很 重要 。 默 认 的 停 用 词 表 对 常用 英语 来 说 
可 能 还 不 错 ， 但 是 如 果 是 其 他 语言 或 者 东 坚 专业 文档 吏 不 合适 了 了， 例如 
技术 文档 。 例 如 ， 若 要 索引 一 批 MySQL 相 关 的 文档， 那么 最 好 将 mysql 
放 入 停 用 词 玫 ， 因 为 在 这 类 文档 中 ， 这 个 词 会 出 现 得 非常 频 索 。 














忽略 一 些 太 短 的 单词 也 可 以 提升 全 文案 引 的 效率 。 索 引 单 词 的 最 小 
长 度 可 以 通过 参数 ft_min_word_len 配 置 。 修 改 该 参数 可 以 过 小 更 多 的 
单词 ， 让 得 询 速度 更 快 ， 但 是 也 会 降低 精确 度 。 还 需要 注意 一 些 特 殊 的 
场景 ， 有 时 确实 需要 索引 某 些 非常 短 的 词语 。 例 如 ， 对 一 个 电子 消费 品 
文档 进行 索引 ， 除 非 我 们 允许 对 很 短 的 单词 进行 索引 ， 人 否则 搜索 “cd 
player" 可 能 会 返回 大 量 的 结果 。 因 为 单词 “cd" 比 默认 人 允许 的 最 短 长 度 4 
还 要 小 ， 所 以 这 里 只 会 对 “Player” 进 行 搜 索 ， 而 通常 搜索 “cd player” 的 客 
户 ， 其 实 对 MP3 或 者 DVD 播放 器 并 不 感 兴趣 。 























停 用 词 表 和 允许 最 小 词 长 都 可 以 通过 减少 索引 词语 来 提升 全 文 索引 
的 效率 ， 但 是 同时 也 会 降低 搜索 的 精确 度 。 这 需要 根据 实际 的 应 用 场景 
找到 合适 的 平衡 点 。 如 条 你 希望 同时 获得 好 的 性 能 和 好 的 搜索 质量 ， 那 
么 需要 目 己 定制 这 些 参数 。 一 个 好 的 办 法 是 通过 日 志 系 统 来 研究 用 户 的 
搜索 行为 ， 看 看 一 些 异 常 的 查询， 包括 没有 结果 返回 的 查询 或 者 返回 过 
多 结果 的 用 户 碍 询 。 通 过 这 些 用 户 行为 和 被 搜索 的 内 容 来 判断 应 该 如 何 














调整 索引 策略 。 
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效 。 男 一 个 参数 ft_max_word_len 和 该 参数 行为 类 似 ， 它 限制 了 允许 索引 的 最 大 词 长 。 








当 疝 一 个 有 全 文 索引 的 表 中 导入 大 量 数据 的 时 候 ， 最 好 先 通过 命令 
DISABLE KEYS 来 禁用 全 文 索引 ， 然 后 在 导入 结束 后 使 用 ENABLE KYES 来 
建立 全 文 索引 。 因 为 全 文 索引 的 更 新 是 一 个 消耗 很 大 的 操作 ， 所 以 上 面 
的 细节 会 帮 你 节省 大 量 时 间 。 另 外 ， 这 样 还 顺便 为 全 文 索引 做 了 一 次 碎 
片 整理 工作 。 











如 果 数 据 集 特 别 大 ， 则 需要 对 数据 进行 手动 分 区 ， 然 后 将 数据 分 布 
到 不 同 的 节点 ， 再 做 并 行 的 搜索 。 这 是 一 个 复杂 的 工作 ， 最 好 通过 一 些 
外 部 的 搜索 引擎 来 实现 ， 如 Lucene 或 者 Sphinx。 我 们 的 经 验 显 示 这 样 做 
性 能 会 有 指数 级 的 提升 。 


7.11 分 布 式 (XA) 事务 


存储 引擎 的 事务 特性 能 够 保证 在 存储 引擎 级 别 实现 ACID (参考 前 
面 介绍 的 “事务 >) ， 而 分 布 式 事务 则 让 存储 引擎 级 别 的 ACID 可 以 扩展 
到 数据 库 层 面 ， 甚 至 可 以 扩展 到 多 个 数据 库 之 间 一 一 这 需要 通过 两 阶段 
提交 实现 。MySQL 5.0 和 更 新 版 本 的 数据 库 已 经 开始 支持 XA 事务 了 。 








XA 事 务 中 需要 有 一 个 事务 协调 器 来 保证 所 有 的 事务 参与 者 都 完成 
了 准备 工作 《第 一 阶段 ) 。 如 果 协 调 器 收 到 所 有 的 参与 者 都 准备 好 的 消 
恩 ， 束 会 告诉 所 有 的 事务 可 以 提交 了 ， 这 是 第 二 阶段 。MySQL 在 这 个 
XA 事务 过 程 中 扮演 一 个 参与 者 的 角色 ， 而 不 是 协调 者 。 


实际 上 ， 在 MySQL 中 有 两 种 XA 事务 。 一 方面 ，MySQL 可 以 参与 到 
外 部 的 分 布 式 事务 中 ; 另 一 方面 ， 还 可 以 通过 XA 事务 来 协调 存储 引擎 
和 二 进 制 日 志 。 


7.11.1 内 部 XA 事务 





MySQL 本 里 的 插件 式 染 构 导 致 在 其 内 部 需要 使 用 XA 事务 。MySQL 
中 各 个 存储 引擎 是 完全 独立 的 ， 彼 此 不 知道 对 方 的 存在 ， 所 以 一 个 跨 存 
储 引 擎 的 事务 就 需要 一 个 外 部 的 协调 者 。 如 条 不 使 用 XA 协 议 ， 例 如 ， 
路 存储 引擎 的 事务 提交 就 只 是 顺序 地 要 求 每 个 存储 引擎 各 自 提 交 。 如 果 
在 茶 个 存储 提交 过 程 中 发 生 系统 朋 尝 ， 殊 会 破坏 事务 的 特性 (要 么 束 全 
部 提交 ， 要 么 就 不 做 任何 操作 〉。 














如 果 将 MySQL 记 录 的 二 进 制 日 志 操作 看 作 一 个 独立 的 “存储 引擎 ”， 
就 不 难 理解 为 什么 即使 是 一 个 存储 引擎 参与 的 事务 仍然 需要 XA 事 务 
了 。 在 存储 引擎 提交 的 同时 ， 需 要 将 “提交 ”的 信息 写 入 二 进 制 日 志 ， 这 
就 是 一 个 分 布 式 事务 ， 只 不 过 二 进 制 日 志 的 参与 者 是 MySQL 本 身 。 


XA 事 务 为 MySQL 带 来 巨大 的 性 能 下 降 。 从 MySQL 5.0 开 始 ， 它 破 
坏 了 MySQL 内 部 的 “批量 提交 ”( 一 种 通过 单 磁盘 LO 操作 完成 多 个 事务 
提交 的 技术 ) ， 使 得 MySQL 不 得 不 进行 多 次 额外 的 fsync () FAO). H 
体 的 ， 一 个 事务 如 果 开 局 了 二 进 制 日 志 ， 则 不 仅 需 要 对 二 进 制 日 志 进 行 
持久 化 操作 ，InnoDB 事 务 日 志 还 需要 两 次 日 志 持久 化 操作 。 换 句 话 
说 ， 如 果 和 希望 有 二 进 制 日 志 安 全 的 事务 实现 ， 则 至 少 需 要 做 三 
次 fsync () 操作 。 唯 一 避免 这 个 问题 的 办 法 就 是 关闭 二 进 制 日 志 ， 并 
将 innodb_support_xa 设 置 为 0d6)。 














但 这 样 的 设置 是 非常 不 安全 的 ， 而 且 这 会 导致 MySQL 复 制 也 没 法 
正常 工作 。 复 制 需 要 二 进 制 日 志和 XA 事务 的 支持 ， 另 外 一 一 如 果 希 望 
数据 尽 可 能 安全 一 一 最 好 还 要 将 sync_binlog 设 置 成 1， 这 时 存储 引擎 和 
二 进 制 日 志 才 是 真正 同步 的 。〈 和 否则 ，XA 事 务 支 持 就 没有 意义 了 ， 
为 事务 提交 了 二 进 制 日 志 却 可 能 没有 “提交 ”到 磁盘 。) 这 也 是 为 什么 我 
们 强烈 建议 使 用 带电 池 保 护 的 RAID 卡 写 缓存 : 这 个 缓存 可 以 大 大 加 快 
fsync () 操作 的 效率 。 








下 一 章 我 们 将 更 进一步 地 介绍 如 何 配置 事务 日 志和 二 进 制 日 志 。 


7.11.2 ”外 部 XA 事务 


MySQL 能 够 作为 参与 者 完成 一 个 外 部 的 分 布 式 事务 。 但 它 对 XA 协 


议 支 持 并 不 完整 ， 例 如 ，XA 协 议 要 求 在 一 个 事务 中 的 多 个 连接 可 以 做 
关联 ， 但 目前 的 MySQL 版 本 还 不 能 支持 。 





因为 通信 延迟 和 参与 者 本 身 可 能 失败 ， 所 以 外 部 XA 事 务 比 内 部 消 
耗 会 更 大 。 如 宋 在 广域网 中 使 用 XA 事 务 ， 通 第 会 因为 不 可 预测 的 网 络 
性 能 导致 事务 失败 。 如 条 有 太 多 不 可 控 因 素 ， 例 如 ， 不 稳定 的 网 络 通信 
或 者 用 户 长 时 间 地 等 竺 而 不 提交 ， 则 最 好 避免 使 用 XA 事 务 。 任 何 可 能 
让 事务 提交 发 生 延 迟 的 操作 代价 都 很 大 ， 因 为 它 影 啊 的 不 仅仅 是 自己 本 
身 ， 它 还 会 让 所 有 参与 者 都 在 等 待 。 











通常 ， 还 可 以 使 用 别 的 方式 实现 高 性 能 的 分 布 式 事务 。 例 如 ， 可 以 
在 本 地 写 入 数据 ， 并 将 其 放 入 队列 ， 然 后 在 一 个 更 小 、 更 快 的 事务 中 目 
动 分 发 。 还 可 以 使 用 MySQL 本 吴 的 复制 机 制 来 发 送 数 据 。 我 们 看 到 很 
多 应 用 程序 都 可 以 完全 避免 使 用 分 布 式 事务 。 


也 惑 是 说 ，XA 事 务 是 一 种 在 多 个 服务 器 之 间 同 步 数据 的 方法 。 如 
打 由 于 茶 些 原因 不 能 使 用 MySQL 本 喘 的 复制 ， 或 者 性 能 并 不 是 瓶颈 的 
时 候 ， 可 以 尝试 使 用 。 


7.12 和 奏 询 缓存 


很 多 数据 库 产 品 都 能 够 缓存 查询 的 执行 计划 ， 对 于 相同 类 型 的 SQL 
就 可 以 跳 过 SQL 解析 和 执行 计划 生成 阶段 。MySQL 在 某 些 场景 下 也 可 以 
实现 ， 但 是 MySQL 还 有 另 一 种 不 同 的 缓存 类 型 : 缓存 完整 的 SELECT 碍 
询 结果 ， 也 就 是 “查询 缓存 ”。 本 节 将 详细 介绍 这 类 缓存 。 








MySQL 查 询 缓存 保存 查询 返回 的 完整 结果 。 当 查询 命中 该 缓存 ， 
MySQL 会 立刻 返回 结果 ， 跳 过 了 解析 、 优 化 和 执行 阶段 。 


查询 缓存 系统 会 跟 踊 合 询 中 涉及 的 每 个 表 ， 如 果 这 些 表 发 生变 化 ， 
那么 和 这 个 表 相 关 的 所 有 的 缓存 数据 都 将 失效 。 这 种 机 制 效率 看 起 来 比 
较 低 ， 因 为 数据 表 变 化 时 很 有 可 能 对 应 的 查询 结果 并 没有 变更 ， 但 是 这 
种 简单 实现 代价 很 小 ， 而 这 点 对 于 一 个 非常 繁忙 的 系统 来 说 非常 重要 。 














查询 缓存 对 应 用 程序 是 完全 透明 的 。 应 用 程序 无 须 关 心 MySQL 是 
通过 得 询 缓存 返回 的 结 末 还 是 实际 执行 返回 的 结 末 。 事 实 上 ， 这 两 种 方 
式 执行 的 结果 是 完全 相同 的 。 换 句 话 说， 碍 询 缓存 无 须 使 用 任何 语法 。 
无 论 是 MySQL 开 启 或 关闭 查询 缓存 ， 对 应 用 程序 都 是 透明 的 02。 














随 痢 现在 的 通用 服务 器 越 来 越 强 大 ， 碍 询 缓存 被 发 现 是 一 个 影响 服 
务 圳 扩展 性 的 因素 。 它 可 能 成 为 整个 服务 器 的 资源 竞争 单 点 ， 在 多 核 服 
务 句 上 还 可 能 导致 服务 器 僵 死 。 后 面 我 们 将 详细 介绍 如 何 配合 碍 询 组 
存 ， 但 是 很 多 时 候 我 们 还 是 认为 应 该 默认 关闭 碍 询 缓存 ， 如 宋 查 询 缓存 
作用 很 大 的 话 ， 那 就 配置 一 个 很 小 的 查询 缓存 空间 (如 儿 十 兆 ) 。 后 面 
我 们 将 解释 如 何 判 断 在 你 的 系统 压力 下 打开 查询 缓存 是 否 有 好 处。 

















7.12.1 MySQL 如 何 判 断 缓存 命中 


MySQL 判 断 缓 存 命中 的 方法 很 镜 单 :缓存 存 放 在 一 个 引用 表 中 ， 
通过 一 个 哈 希 值 引用 ， 这 个 哈 希 值 包括 了 如 下 因素 ， 即 查询 本 映 、 当 前 
要 得 询 的 数据 库 、 客 户 端 协议 的 版 本 等 一 些 其 他 可 能 会 影响 返回 结果 的 
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当 判 断 缓 存 是 否 命中 时 ，MySQL 不 会 解析 、“ 正 规 化 ”或 者 参数 化 查 
询 语句 ， 而 是 直接 使 用 SQL 语句 和 客户 端 发 送 过 来 的 其 他 原始 信息 。 任 
何 字符 上 的 不 同 ， 例 如 空格 、 注 释 一 一 任何 的 不 同一 一 都 会 导致 缓存 的 
不 命中 。 吗 所 以 在 编写 SQL 语句 的 时 候 ， 需 要 特别 注意 这 点 。 通 常 使 用 
统一 的 编码 规则 是 一 个 好 的 习惯 ,在 这 里 这 个 好 习惯 会 让 你 的 系统 运行 
得 更 快 。 








当 查 询 语句 中 有 一 些 不 确定 的 数据 时 ， 则 不 会 被 缓存 。 例 如 包含 函 
数 NOW () 或 者 CURRENT_DATE () 的 查询 不 会 被 缓存 。 类 似 的 ， 包 
含 CURRENT_USER 或 者 CONNECTION_1D 0 的 查询 语句 因为 会 根据 不 同 的 用 
户 返 回 不 同 的 结果 ， 所 以 也 不 会 被 缓存 。 事 实 上 ， 如 果 查 询 中 包含 任何 
用 户 自 定义 函数 、 存 储 函 数 、 用 户 变 量 、 临 时 表 、mysq1 库 中 的 系统 
表 ， 或 者 任何 包含 列 级 别 权 限 的 表 ， 都 不 会 被 缓存 。〔 如 果 想 知道 所 有 
情况 ， 建 议 阅读 MySQL 官 方 手册 。) 





RIEA: “如果 公 询 中 包含 一 个 不 确定 的 函数 ，MySQL 则 不 会 
检查 查询 缓存 ”"。 这 个 说 法 是 不 正确 的 。 因 为 在 检查 查询 缓存 的 时 候 ， 
还 没有 解析 SQL 语 句 ， 所 以 MySQL 并 不 知道 查询 语句 中 是 否 包含 这 类 轴 
数 。 在 检查 查询 缓存 之 前 ，MySQL 只 做 一 件 事情 ， 就 是 通过 一 个 大 小 
写 不 敏感 的 检查 看 看 SQL 语句 是 不 是 以 SEL 开 头 。 























准确 的 说 法 应 该 是 :“ 如 果 查 询 语句 中 包含 任何 的 不 确定 函数 ， 那 
么 在 查询 缓存 中 是 不 可 能 找到 缓存 结果 的 ”。 因 为 即使 之 前 刚刚 执行 了 
这 样 的 查询 ， 结 果 也 不 会 放 在 查询 缓存 中 。MySQL 在 任何 时 候 只 要 发 
现 不 能 被 缓存 的 部 分 ， 束 会 禁止 这 个 查询 被 缓存 。 








所 以 ， 如 果 和 希望 换 成 一 个 带 日 期 的 查询 ， 那 么 最 好 将 日 期 提前 计算 
好 ， 而 不 要 和 直接 使 用 函数 。 例 如 ; 


. DATE_SUB(CURRENT_DATE, INTERVAL 1 DAY) -- Not cacheable! 


. DATE_SUB('2007-07-14', INTERVAL 1 DAY) -- Cacheable 








因为 查询 缓存 是 在 完整 的 SELECT 语句 基础 上 的 ， 而 且 只 是 在 刚 收 
到 SQL 语句 的 时 候 才 检查 ， 所 以 子 查询 和 存储 过 程 都 没 办 法 使 用 查询 组 
存 。 在 MySQL 5.1 之 前 的 版 本 中 ， 绑 定 变量 也 无 法 使 用 查询 缓存 。 











MySQL 的 查询 缓存 在 很 多 时 候 可 以 提升 查询 性 能 ， 在 使 用 的 时 
候 ， 有 一 些 问 题 需 要 特别 注意 。 首 先 ， 打 开 碍 询 缓存 对 读 和 写 操作 都 会 
市 来 额外 的 消耗 : 


。 读 查询 在 开始 之 前 必须 先 检查 是 否 命 中 缓存 。 

。 如 宁 这 个 该 查询 可 以 被 缓存 ， 那 么 当 完 成 执行 后 ，MySQL 奉 发 现 
查询 缓存 中 没有 这 个 查询 ， 会 将 其 结果 存 入 查询 缓存 ， 这 会 带 来 额 
外 的 系统 消耗 。 

这 对 写 操作 也 会 有 影响 ， 因 为 当 问 和 个 表 写 入 数据 的 时 候 ， 
MySQL 必 须 将 对 应 表 的 所 有 缓存 都 设置 失效 。 如 宋 碍 询 缓存 非常 
大 或 者 碎片 很 多 ， 这 个 操作 融 可 能 会 市 来 很 大 系统 消耗 “设置 了 很 
多 的 内 存 给 查询 缓存 用 的 时 候 ) 。 

















虽然 如 此 ， 碍 询 缓存 仍然 可 能 给 系统 带 来 性 能 提升 。 但 是 ， 如 上 所 


述 ， 这 些 额 外 消耗 也 可 能 不 断 增 加 ， 再 加 上 对 碍 询 缓存 操作 是 一 个 加 锁 
排他 操作 ， 这 个 消耗 可 能 不 容 小 凯 。 





对 InnoDB 用 户 来 说 ， 事 务 的 一 些 特 性 会 限制 查询 缓存 的 使 用 。 当 
一 个 语句 在 事务 中 修改 了 某 个 表 ，MySQL 会 将 这 个 表 的 对 应 的 查询 绥 
存 都 设置 失效 ， 而 事实 上 ，InnoDB 的 多 版 本 特性 会 暂时 将 这 个 修改 对 
其 他 事务 屏蔽 。 在 这 个 事务 提交 之 前 ， 这 个 表 的 相关 但 询 是 无 法 被 缓存 
的 ， 所 以 所 有 在 这 个 表 上 面 的 查询 一 一 内 部 或 外 部 的 事务 一 一 部 只 能 在 
该 事务 提交 后 才 被 缓存 。 因 此 ， 长 时 间 运 行 的 事务 ， 会 大 大 降低 查询 组 
存 的 命中 率 。 

















如 末 碍 询 缓存 使 用 了 很 大 量 的 内 存 ， 缓 存 失 效 操作 就 可 能 成 为 一 个 
非常 严重 的 问题 瓶 颈 。 如 宁 组 人 存 中 存放 了 大 量 的 得 询 结果 ， 那 么 缓存 失 
效 操作 时 整个 系统 都 可 能 会 僵 死 一 会 儿 。 因 为 这 个 操作 是 徘 一 个 全 局 锁 
操作 保护 的 ， 所 有 需要 做 该 操作 的 查询 都 要 等 待 这 个 锁 ， 而 且 无 论 是 检 
汕 是 否 命中 缓存 、 还 是 缓存 失效 检测 都 需要 等 待 这 个 全 局 锁 。 第 3 草 中 
有 一 个 真实 的 案例 ， 为 大 家 展示 查询 缓存 过 大 时 带 来 的 系统 消耗 。 


7.12.2 ”得 询 绥 存 如 何 使 用 内 存 


查询 缓存 是 完全 存储 在 内 存 中 的 ， 所 以 在 配置 和 使 用 它 之 前 ， 我 们 
需要 先 了 解 它 是 如 何 使 用 内 存 的 。 除 了 伍 询 结果 之 外 ， 需 要 缓存 的 还 有 
很 多 别 的 维护 相关 的 数据 。 这 和 文件 系统 有 些 类 似 ， 需 要 一 些 内 存 专门 
用 来 确定 哪些 内 存 目 前 是 可 用 的 、 哪 些 是 已 经 用 挥 的 、 哪 些 用 来 存储 数 
据 表 和 查询 结果 之 前 的 映 冉 、 哪 些 用 来 存储 查询 字符 串 和 查询 结 

















这 些 基 本 的 管理 维护 数据 结构 大 概 需 要 40KB 的 内 存 资源 ， 除 此 之 


Sh, MySQL 22 2246 6 AER PE BER, BR EAR 
长 的 。 每 一 个 数据 块 中 ， 存 储 了 自己 的 类 型 、 大 小 和 存储 的 数据 本 号 ， 
还 外 加 指向 前 一 个 和 后 一 个 数据 块 的 指针 。 数 据 块 的 类 型 有 : 存储 查询 
结果 、 存 储 查 询 和 数据 表 的 映射 、 存 储 碍 询 文本 ， 等 等 。 不 同 的 存储 
块 ， 在 内 存 使 用 上 并 没有 什么 不 同 ， 从 用 户 角度 来 看 无 须 区 分 它们 。 








当 服务 器 局 动 的 时 候 ， 它 先 初 始 化 碍 询 缓存 需要 的 内 存 。 这 个 内 存 
池 初 始 是 一 个 完整 的 空闲 块 。 这 个 空闲 块 的 大 小 就 是 你 所 配置 的 查询 组 
存 大 小 再 减 去 用 于 维护 元 数据 的 数据 结构 所 消耗 的 空间 。 





当 有 查询 结果 需要 绥 存 的 时 候 ，MySQL 先 从 大 的 空间 块 中 申请 一 
个 数据 块 用 于 存储 结果 。 这 个 数据 块 需要 大 于 参 
数 query_cache_min_res_unit 的 配置 ， 即 使 查询 结果 远 远 小 于 此 ， 仍 需 
要 至 少 申请 query_cache_min_res_unit 空 间 。 因 为 需要 在 查询 开始 返回 
结果 的 时 候 就 分 配 空间 ， 而 此 时 是 无 法 预知 查询 结果 到 底 多 大 的 ， 所 以 
MySQL 无 法 为 每 一 个 查询 结果 精确 分 配 大 小 恰好 匹配 的 缓存 空间 。 











因为 需要 先 锁 住 空间 块 ， 然 后 找到 合适 大 小 数据 块 ， 所 以 相对 来 
说 ， 分 配 内 存 块 是 一 个 非常 慢 的 操作 。MySQL 人 尽量 避免 这 个 操作 的 次 
数 。 当 需要 缓存 一 个 查询 结果 的 时 候 ， 它 先 选 择 一 个 尽 可 能 小 的 内 存 块 
(也 可 能 选择 较 大 的 ， 这 里 将 不 介绍 细节 ) ， 然 后 将 结果 存 入 其 中 。 如 
条 数据 块 全 部 用 完 ， 但 仍 有 剩余 数据 需要 人 存储， 那么 MySQL 会 申请 一 
块 新 数据 块 一 一 仍然 是 尽 可 能 小 的 数据 块 一 一 继续 存储 结果 数据 。 当 碍 
询 完 成 时 ， 如 果 申 请 的 内 存 空间 还 有 剩余 ，MySQL 会 将 其 释放 ， 并 放 
入 空闲 内 存 部 分 。 图 7-3 展 示 了 这 个 过 程 G9)。 
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图 7-3: 查询 缓存 如 何 分 配 内 存 来 存储 结果 数据 





我 们 上 面 说 的 “分 配 内 存 块 "”” 并 不 是 指 通 过 函数 malloc0) 癌 操作 系 
统 申 请 内 存 ， 这 个 操作 只 在 初次 创建 查询 缓存 的 时 候 执 行 一 次 。 这 
里 “分 配 内 存 块 ” 是 指 在 空闲 块 列 表 中 找到 一 个 合适 的 内 存 块 ， 或 者 从 正 
在 使 用 的 、 答 淘汰 的 内 存 块 中 回收 再 使 用 。 也 束 是 说 ， 这 里 MySQL 自 
己 官 理 一 大 块 内 存 ， 而 不 依赖 操作 系统 的 内 存 管理 。 








至 此 ， 一 切 都 看 起 来 很 简单 。 不 过 实际 情况 比 图 7-3 要 更 复杂 。 例 
如 ， 我 们 假设 平均 查询 结果 非常 小 ， 服 务 器 在 并 发 地 癌 不 同 的 两 个 连接 
返回 结果 ， 返 回 完结 果 后 MySQL 回 收 剩余 数据 块 空间 时 会 发 现 ， 回 收 
的 数据 块 小 于 query_cache_min_res_unit， 所 以 不 能 够 直接 在 后 续 的 内 
存 块 分 配 中 使 用 。 如 果 考 虑 到 这 种 情况 ， 数 据 块 的 分 配 就 更 复杂 些 ， 如 
图 7-4 所 示 。 














miks 存储 的 两 个 缓存 结果 集 











图 7-4: 查询 缓存 中 存储 查询 结果 后 剩余 的 碎片 


在 收缩 第 一 个 查询 结果 使 用 的 缓存 空间 时 ， 就 会 在 第 二 个 查询 结果 
之 间 留 下 一 个 “ 空 阶 ' 一 一 一 个 非常 小 的 空 亲 空间 ， 因 为 小 于 
query_cache_min_res_unit 而 不 能 再 次 被 查询 绥 存 使 用 。 这 类 “空隙 ”我 
们 称 为 " 雁 片 ?， 这 在 内 存 管 理 、 文 件 系 统管 理 上 都 是 经 典 问题 。 有 很 多 
种 情况 都 会 导致 碎片 ， 例 如 缓存 失效 时 ， 可 能 导致 留 下 太 小 的 数据 块 无 
法 在 后 续 绥 存 中 使 用 。 


7.12.3 ”什么 情况 下 碍 询 缓存 能 发 挥 作 
用 


并 不 是 什么 情况 下 碍 询 缓存 都 会 提高 系统 性 能 的 。 缓 存 和 失效 都 会 
市 来 额外 的 消耗 ， 所 以 只 有 当 绥 存 带 来 的 资源 节约 大 于 其 本 里 的 资源 消 
耗 时 才 会 给 系统 带 来 性 能 提升 。 这 跟 具 体 的 服务 器 压力 模型 有 关 。 








理论 上 ， 可 以 通过 观察 打开 或 者 关闭 查询 缓存 时 候 的 系统 效率 来 决 
定 是 否 需 要 开局 查询 缓存 。 关 闭 碍 询 缓存 时 ， 每 个 查询 都 需要 完整 的 执 








行 ， 每 一 次 写 操作 执行 完成 后 立刻 返回 ， 打 开 碍 询 缓存 时 ， 每 次 读 请 求 
先 检查 缓存 是 售 命 中 ， 如 果 命 中 则 立刻 返回 ， 人 否则 就 完整 地 执行 查询 ， 
每 次 写 操作 则 需要 检查 查询 缓存 中 是 否 有 需要 失效 的 缓存 ， 然 后 再 返 
回 。 这 个 过 程 还 比较 简单 明了 ， 但 是 要 评估 打开 得 询 缓存 是 售 能 够 带 来 
性 能 提升 却 并 不 容易 。 还 有 一 些 外 部 的 因素 需要 考虑 ， 例 如 ， 碍 询 缓存 
可 以 降低 碍 询 执行 的 时 间 ， 但 是 却 不 能 减少 查询 结果 传输 的 网 络 消耗 ， 
如 果 这 个 消耗 是 系统 的 主要 瓶 宽 ， 那 么 查询 缓存 的 作用 也 很 小 。 

















因为 MySQL 在 SHOW STATUS 中 只 能 提供 一 个 全 局 的 性 能 指标 ， 所 以 
很 难 根 据 此 来 判断 查询 缓存 是 否 能 够 提升 性 能 < 名 。 很 多 时 候 ， 全 局 平 
均 不 能 反映 实际 情况 。 例 如 ， 打 开 查 询 缓 存 可 以 使 得 一 个 很 慢 的 查询 变 
得 非常 快 ， 但 是 也 会 让 其 他 查询 稍微 慢 一 点 点 。 有 了 时候 如 果 能 够 让 某 些 
关键 的 查询 速度 更 快 ， 稍 微 降低 一 下 其 他 查询 的 速度 是 值得 的 。 不 过 ， 
这 种 情况 我 们 推荐 使 用 SQL_CACHE 来 优化 对 查询 缓存 的 使 用 。 























对 于 那些 需要 消耗 大 量 资 源 的 查询 通常 都 是 非常 适合 缓存 的 。 例 如 
一 些 汇总 计算 查询 ， 具 体 的 如 COUNT () 等 。 总 地 来 说 ， 对 于 复杂 的 
SELECT 语句 都 可 以 使 用 查询 缓存 ， 例 如 多 表 JOIN 后 还 需要 做 排序 和 分 
页 ， 这 类 查询 每 次 执行 消耗 都 很 大 ， 但 是 返回 的 结果 集 却 很 小 ， 非 常 适 
合 查 询 缓 存 。 不 过 需要 注意 的 是 ， 涉 及 的 表 上 UPDATE、DELETE 和 INSERT 
操作 相 比 SELECT 来 说 要 非常 少 才 行 。 











一 个 判断 查询 缓存 是 否 有 效 的 直接 数据 是 命中 率 ， 就 是 使 用 查询 绥 
存 返 回 结 果 占 总 查询 的 比率 。 当 MySQL 接 收 到 一 个 SELECT 查 询 的 时 
候 ， 要 么 增加 Qcache_hits 的 值 ， 要 么 增加 Com_select 的 值 。 所 以 查询 
缓存 命中 率 可 以 由 如 下 公式 计 
算 : Qcache_hits/(Qcache_hits+Com select) 。 














不 过 ， 碍 询 缓存 命中 率 是 一 个 很 难 判 断 的 数值 。 命 中 率 多 大 才 是 好 
的 命中 率 ? 具体 情 况 要 具体 分 析 。 只 要 查询 缓存 带 来 的 效率 提升 大 于 碍 
询 缓存 剖 来 的 额外 消耗 ， 即 使 30% 命 中 率 对 系统 性 能 提升 也 有 很 大 好 
处 。 另 外 ， 绥 存 了 哪些 奋 询 也 很 重要 ， 例 如 ， 被 缓存 的 查询 本 身 消 耗 非 
常 巨 大 ， 那 么 即使 缓存 命中 率 非 常 低 ， 也 仍然 会 对 系统 性 能 提升 有 好 
处 。 所 以 ， 没 有 一 个 简单 的 规则 可 以 判断 查询 缓存 是 否 对 系统 有 好 处 。 























任何 SELECT 语句 没有 从 查询 缓 存 中 返回 都 称 为 “缓存 未 命中 ”。 绥 存 
未 命中 可 能 有 如 下 几 种 原因 








。 查询 语句 无 法 被 缓存 ， 可 能 是 因为 查询 中 包含 一 个 不 确定 的 函数 
《如 CURRENT_DATA) ， 或 者 查询 结果 太 大 而 无 法 缓存 。 这 都 会 导致 
状态 值 Qcache_not_cached 增 加 。 

。 MyYSQL 从 未 处 理 这 个 查询 ， 所 以 结果 也 从 不 曾 被 缓存 过 。 

。 还 有 一 种 情况 是 虽然 之 前 缓存 了 碍 询 结果 ， 但 是 由 于 得 询 缓存 的 内 
存 用 完了 ，MySQL 需 要 将 某 些 缓存 “ 逐 出 ”， 或 者 由 于 数据 表 被 修改 
导致 缓存 失效 。【〔 后 续 会 详细 介绍 绥 存 失效 。) 




















如 末 你 的 服务 器 上 有 大 量 缓存 未 命中 ， 但 是 实际 上 绝 大 数 香 询 都 家 
缓存 了 ， 那 么 一 定 是 有 如 下 情况 发 生 : 





。 全 询 绥 存 还 没有 完成 预 热 。 也 就 是 说 ，MySQL 还 没有 机 会 将 查询 
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查询 语句 之 前 从 未 执行 过 。 如 果 你 的 应 用 程序 不 会 重复 执行 一 条 但 
询 语句 ， 那 么 即使 完成 预 热 仍然 会 有 很 多 缓存 未 命中 。 

绥 存 失效 操作 太 多 了 。 























缓存 碎片 、 内 存 不 足 、 数 据 修改 都 会 造成 缓存 失效 。 如 采 配 置 了 足 








够 的 缓存 空间 ， 而 且 query_cache_min_res_unit 设 置 也 合理 的 话 ， 那 么 
缓存 失效 应 该 主要 是 数据 修改 导致 的 。 可 以 通过 参数 Com_* 来 查看 数据 
修改 的 情况 (包括 Com_ update, Com delete， 等 等 ) ， 还 可 以 通过 
Qcache_lowmem_prunes 来 得 看 有 多 少 次 失效 是 由 于 内 存 不 足 导致 的 。 





在 考虑 缓存 命中 率 的 同时 ， 通 常 还 需要 考虑 缓存 失效 禹 来 的 额外 消 
耗 。 一 个 极 并 的 办 法 是 ， 对 某 一 个 表 先 做 一 次 只 有 查询 的 测试 ， 并 且 所 
有 的 查询 都 命中 缓存 ， 而 男 一 个 相同 的 表 则 只 做 修改 操作 。 这 时 ， 查 询 
绥 存 的 命中 率 就 是 100%。 但 因为 会 给 更 新 操作 带 来 额外 的 消耗 ， 所 以 
碍 询 缓存 并 不 一 定 会 带 来 总 体 效 率 的 提升 。 这 里 ， 所 有 的 更 新 语句 都 会 
做 一 次 缓存 失效 检查 ， 而 检查 的 结果 都 是 相同 的 ， 这 会 给 系统 带 来 额外 
的 资源 滔 费 。 所 以 ， 如 果 你 只 是 观察 碍 询 缓存 的 命中 率 的 话 ， 可 能 完 
不 会 发 现 这 样 的 问题 。 








在 MySQL 中 如 采 更 新 操作 和 融 缓 存 的 读 操 作 混合 ， 那 么 得 询 缓存 
融 来 的 好 处 通 币 很 难 衡量 。 更 新 操作 会 不 断 地 使 得 缓存 失效 ， 而 同时 每 
次 查询 还 会 问 绥 存 中 再 写 入 新 的 数据 。 所 以 只 有 当 后 续 的 查询 能 够 在 组 
存 失效 前 使 用 缓存 才 会 有 效 地 利用 得 询 缓存 。 


如 果 绥 存 的 结果 在 失效 前 没有 被 任何 其 他 的 SELECT 语句 使 用 ， 那 么 
这 次 绥 存 操作 就 是 浪费 时 间 和 和 内存。 我 们 可 以 通过 查看 Com_se1ect 和 
Qcache_inserts 的 相对 值 来 看 看 是 否 一 直 有 这 种 情况 及 生 。 如 果 每 次 查 
询 操 作 都 是 绥 存 未 命中 ， 然 后 需要 将 查询 结果 放 到 缓存 中 ， 那 
么 Qcache_inserts 的 大 小 应 该 和 Com_select 相 当 。 所 以 在 缓存 完成 预 热 
后 ， 我 们 总 希望 看 到 Qcache_inserts 远 远 小 于 Com_select。 不 过 由 于 绥 
存 和 服务 器 内 部 的 复杂 和 多 样 性 ， 仍 然 很 难说 ， 这 个 比率 是 多 少 才 是 一 
个 合适 的 值 。 























所 以 ， 上 面 的 “命中 率 ” 和 “INSERTS 和 SELECT 比率 ”都 无 法 直观 地 
反应 查询 缓存 的 效率 。 那 么 还 有 什么 直观 的 办 法 能 够 反映 查询 缓存 是 否 
对 系统 有 好 处 ? 这 里 推荐 查看 另 一 个 指标 : “命中 和 写 入 ”的 比率 ， 

即 Qcache_hits 和 Qcache_inserts 的 比值 。 根 据 经 验 来 看 ， 当 这 个 比值 
大 于 3:1 时 通常 查询 缓存 是 有 效 的 ， 不 过 这 个 比率 最 好 能 够 达到 10:1。 如 
果 你 的 应 用 没有 达到 这 个 比率 ， 那 么 就 可 以 考虑 禁用 查询 缓存 了 ， 除 非 
你 能 够 通过 精确 的 计算 得 知 : 命中 带 来 的 性 能 提升 大 于 缓存 失 效 的 消 

耗 ， 并 且 查 询 缓存 并 没有 成 为 系统 的 瓶颈 。 























每 一 个 应 用 程序 都 会 有 一 个 “最 大 缓存 空间 ?， 甚 至 对 一 些 纯 读 的 应 
用 来 说 也 一 样 。 节 大 缓存 空间 是 能 够 缓存 所 有 可 能 碍 询 结果 的 缓存 空间 
总 和 。 理 论 上 ， 对 多 数 应 用 来 说 ， 这 个 数值 都 会 非常 大 。 而 实际 上 ， 由 
于 缓存 失效 的 原因 ， 大 多 数 应 用 最 后 使 用 的 缓存 空间 都 比 预想 的 要 小 。 
即使 你 配置 了 足够 大 的 缓存 空间 ， 由 于 不 断 地 失效 ， 导 致 缓存 空间 一 直 
都 不 会 接近 “最 大 缓存 空间 ”。 




















通常 可 以 通过 观察 得 询 缓存 内 存 的 实际 使 用 情况 ， 来 确定 是 否 需要 
缩小 或 者 扩大 碍 询 缓存 。 如 果 碍 询 缓存 空间 长 时 间 都 有 剩余 ， 那 么 建议 
缩小 ， 如 果 经 党 由 于 空间 不 足 而 导致 查询 缓存 失效 ， 那 么 则 需要 增 大 得 
询 缓存 。 不 过 需要 注意 ， 如 宋 碍 询 缓存 达到 了 几 十 兆 这 样 的 数量 级 ， 是 
有 潜在 危险 的 。 (这 和 硬件 以 及 系统 压力 大 小 有 关 )。 











另外 ， 可 能 还 需要 和 系统 的 其 他 缓存 一 起 考虑 ， 例 如 InnoDB 的 组 
存 池 ， 或 者 MyISAM 的 索引 缓存 。 关 于 这 点 是 没 法 简单 给 出 一 个 公式 或 
者 比率 来 判断 的 ， 因 为 真正 的 平衡 点 与 应 用 程序 有 很 大 的 关系 。 




















最 好 的 判断 查询 缓存 是 否 有 效 的 办 法 还 是 通过 查看 某 类 查询 时 间 消 
耗 是 否 增 大 或 者 减少 来 判断 。Percona Server 通 过 扩展 慢 查 询 可 以 观察 到 
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7.12.4 如 何 配 置 和 维护 碍 询 缓存 


一 旦 理解 查询 缓存 工作 的 原理 ， 配 置 起 来 就 很 容易 了 。 它 也 只 有 很 
少 的 参数 可 供 配 置 ， 如 下 所 示 。 


query_cache type 





是 否 打开 查询 缓存 。 可 以 设置 成 OFF、0N 或 DEMAND。DEMAND 表 
示 只 有 在 查询 语句 中 明确 写 明 SQL_CACHE 的 语句 才 放 入 查询 缓存 。 
这 个 变量 可 以 是 会 话 级 别 的 也 可 以 是 全 局 级 别 的 (会 话 级 别 和 全 局 
级 别 的 概念 请 参考 第 8 章 ) 。 








query_cache_size 





碍 询 缓存 使 用 的 总 内 存 空 间 ， 单 位 是 字 节 。 这 个 值 必须 是 1 
024 的 整数 倍 ， 否 则 MySQL 实 际 分 配 的 数据 会 和 你 指定 的 略 有 不 
同 。 


query_cache_min_res_unit 


在 碍 询 缓存 中 分 配 内 存 块 时 的 最 小 单位 。 在 前 面 我 们 已 经 介绍 
了 这 个 参数 ， 后 面 我 们 还 将 进一步 讨论 它 。 


query_cache_limit 








MySQL 能 够 缓存 的 最 大 查询 结果 。 如 果 查 询 结 果 大 于 这 个 
值 ， 则 不 会 被 缓存 。 因 为 查询 缓存 在 数据 生成 的 时 候 束 开始 尝试 绥 
存 数 据 ， 所 以 只 有 当 结 果 全 部 返回 后 ， MySQL 才 知道 查询 结果 是 
否 超出 限制 。 











如 果 超 出 ，MySQL 则 增加 状态 值 Qcache_not_cached， 并 将 结果 从 
查询 缓存 中 删除 。 如 果 你 事先 知道 有 很 多 这 样 的 情况 发 生 ， 那 么 建议 在 
查询 语句 中 加 入 SQL_N0_CACHE 来 避免 查询 缓存 带 来 的 额外 消耗 。 





query_cache_wlock_inval idate 


如 果 某 个 数据 表 被 其 他 的 连接 锁 住 ， 是 否 仍然 从 查询 缓存 中 返 
回 结果 。 这 个 参数 默认 是 0OFF， 这 可 能 在 一 定 程序 上 会 改变 服务 器 
的 行为 ， 因 为 这 使 得 数据 库 可 能 返回 其 他 线程 锁 住 的 数据 。 将 参数 
设置 成 N， 则 不 会 从 缓存 中 读 取 这 关 数 据 ， 但 是 这 可 能 会 增加 锁 等 
等。 对 于 绝 大 数 应 用 来 说 无 须 注意 这 个 细节 ， 所 以 默认 设置 通常 是 
没有 问题 的 。 





配置 查询 缓存 通常 很 简单 ， 但 是 如 果 想 知道 修改 这 些 参数 会 带 来 哪 
些 改变 ， 则 是 一 项 很 复杂 的 工作 。 后 续 的 章节 ， 我 们 将 帮助 你 来 决定 怎 
样 设置 这 些 参数 。 


没什么 办 法 能 够 完全 避免 碎片 ， 但 是 选择 合适 的 
query_cache_min_res_unit 可 以 帮 你 减少 由 人 雄 片 导致 的 内 存 空间 浪费 。 
设置 合适 的 值 可 以 平衡 每 个 数据 块 的 大 小 和 每 次 存储 结果 时 内 存 块 申请 





的 次 数 。 这 个 值 太 小 ， 则 浪费 的 空间 更 少 ， 但 是 会 导致 更 频繁 的 内 存 块 
申请 操作 ; 如 果 这 个 值 设置 得 太 大 ， 那 么 碎片 会 很 多 。 调 整合 适 的 值 其 
实 是 在 平衡 内 存 浪费 和 CPU 消 耗 。 


这 个 参数 的 最 合适 的 大 小 和 应 用 程序 的 查询 结果 的 平均 大 小 直接 相 
关 。 可 以 通过 内 存 实际 消耗 (query_cache_size 
-Qcache free memory) 除 以 Qcache queries in_ cache 计算 单个 查询 的 
平均 绥 存 大 小 。 如 果 你 的 应 用 程序 的 查询 结果 很 不 均匀 ， 有 的 结果 很 
大 ， 有 的 结果 很 小 ， 那 么 雁 片 和 反复 的 内 存 块 分 配 可 能 无 法 避免 。 如 有 果 
你 发 现 缓存 一 个 非常 大 的 结果 并 没有 什么 意义 “通常 确实 是 这 样 )， 那 
么 你 可 以 通过 参数 query_cache_1imit 限 制 可 以 缓存 的 最 大 查询 结果 ， 
借 此 大 大 减少 大 的 查询 结果 的 缓存 ， 最 终 减少 内 存 碎片 的 发 生 。 











还 可 以 通过 参数 Qcache _ free blocks 来 观察 雁 片 。 参 
数 Qcache_free_blocks 反 映 了 碍 询 缓存 中 空闲 块 的 多 少 ， 在 图 7-4 的 配 
置 中 我 们 看 到 ， 有 两 个 空 几 块 。 最 糟 料 的 情况 是 ， 任 何 两 个 存储 结果 的 
数据 块 之 间 都 有 一 个 非常 小 的 空闲 块 。 所 以 如 果 Qcache_free_blocks 大 
小 恰好 达到 Qcache_total_blocks/2， 那 么 查询 缓存 就 有 严重 的 碎片 问 
题 。 而 如 果 你 还 有 很 多 空闲 块 ， 而 状态 值 Qcache_lowmem_prunes 还 不 断 
地 增加 ， 则 说 明 由 于 碎片 导致 了 过 早 地 在 删除 查询 缓存 结果 。 














可 以 使 用 命令 FLUSH QUERY CACHE 完成 碎片 整理 。 这 个 命令 会 将 所 
有 的 查询 绥 存 重新 排序 ， 并 将 所 有 的 空闲 空间 都 聚集 到 碍 询 缓存 的 一 块 
区 域 上 。 不 过 需要 注意 ， 这 个 命令 并 不 会 将 得 询 缓存 清 空 ， 清 空 缓存 由 
命令 RESET QUERY _ CACHE 完成。FLUSH QUERY CACHE 会 访问 所 有 的 查询 组 
存 ， 在 这 期 间 任 何其 他 的 连接 都 无 法 访问 查询 缓存 ， 从 而 会 导致 服务 器 
僵 死 一 段 时 间 ， 使 用 这 个 命令 的 时 候 需 要 特别 小 心 这 点 。 另 外 ， 根 据 经 
验 ， 建 议 保 持 得 询 缓存 空间 足够 小 ， 以 便 在 维护 时 可 以 将 服务 器 僵 死 控 























制 在 非常 短 的 时 间 内 。 
提高 得 询 缓存 的 使 用 率 


如 条 碍 询 缓存 不 再 有 雁 片 问题 ， 但 你 仍然 发 现 命 中 率 很 低 ， 还 可 能 
是 查询 缓存 的 内 存 空间 太 小 导致 的 。 如 果 MySQL 无 法 为 一 个 新 的 查询 
绥 存 结果 的 时 候 ， 则 会 选择 删除 茶 个 老 的 缓存 结果 。 


当 由 于 这 个 原因 导致 删除 老 的 缓存 结果 时 ， 会 增加 状态 
值 Qcache_lowmem_prunes。 如 果 这 个 值 增加 得 很 快 ， 那 么 可 能 是 由 下 面 
两 个 原因 导致 的 : 


。 如 果 还 有 很 多 空闲 块 ， 那 么 碎片 可 能 是 菲 鬼 福 首 〈 人 参考 前 面 的 小 
ace 

如 果 这 时 没什么 空闲 块 了 ， 就 说 明 在 这 个 系统 压力 下 ， 你 分 配 的 查 
询 缓 存 空间 不 够 大 。 你 可 以 通过 检查 状态 值 Qcache_free_memory 来 
查看 还 有 多 少 没 有 使 用 的 内 存 。 


如 果 空 闲 块 很 多 ,碎片 很 少 ， 也 没有 什么 由 于 内 存 导致 的 缓存 失 
效 ， 但 是 命中 率 仍 然 很 低 ， 那 么 很 可 能 说 明 ， 在 你 的 系统 压力 下 ， 查 询 
缓存 并 没有 什么 好 处 。 一 定 是 什么 原因 导致 查询 缓存 无 法 为 系统 服务 ， 
例如 有 大 量 的 更 新 或 者 查询 语句 本 身 都 不 能 被 缓存 。 




















如 果 在 观察 命中 紊 时， 仍然 无 法 确定 查询 绥 存 是 否 给 系统 带 来 了 好 
处 ， 那 么 可 以 通过 禁用 它 ， 然 后 观察 系统 的 性 能 ， 再 重新 打开 它 ， 观 察 
性 能 变化 ， 据 此 来 判断 查询 缓存 是 否 给 系统 市 来 了 好 处 。 可 以 通过 
将 query_cache_size 设 置 成 0， 来 关闭 得 询 缓存 。 〈 改 变 
query_cache_type 的 全 局 值 并 不 会 影响 已 经 打开 的 连接 ， 也 不 会 将 查询 





缓存 的 内 存 释 放 给 系统 。〉 你 还 可 以 通过 系统 测试 来 验证 ， 不 过 一 般 部 
很 难 精确 地 模拟 实际 情况 。 





图 7-5 展 示 了 一 个 用 来 分 析 和 配置 查询 缓存 的 流程 图 。 

















图 7-5: 如 何 分 析 和 配置 查询 缓存 


7.12.5 “InnoDB 和 和 查询 缓存 


因为 mhnoDB 有 自己 的 MVCC 机 制 ， 所 以 相 比 其 他 存储 引擎 ， 
InnoDB 和 查询 绥 存 的 交互 要 更 加 复杂 。MySQL 4.0 版 本 中 ， 在 事务 处 理 
中 查询 缓存 是 被 禁用 的 ， 从 4.1 和 更 新 的 InnoDB 版 本 开始 ，InnoDB 会 控 
制 在 一 个 事务 中 是 否 可 以 使 用 查询 缓存 ，InnoDB 会 同时 控制 对 查询 组 




















存 的 读 〈 从 缓存 中 获取 碍 询 结果 ) 和 写 操作 〈 疝 查询 缓存 写 入 结果 ) o 





事务 是 售 可 以 访问 碍 询 缓存 取决 于 当前 事务 ID， 以 及 对 应 的 数据 表 
上 是 人 否 有 锁 。 每 一 个 mnoDB 表 的 内 存 数 据 字 典 都 保存 了 一 个 事物 ID 
号 ， 如 果 当 前 事务 ID 小 于 该 事务 ID， 则 无 法 访问 查询 缓 存 。 





如 果 表 上 有 任何 的 锁 ， 那 么 对 这 个 表 的 任何 查询 语句 都 是 无 法 被 组 
存 的 。 例 如 ， 某 个 事务 执行 了 SELECT FOR _ UPDATE 语句 ， 那 么 在 这 个 锁 
释放 之 前 ， 任 何其 他 的 事务 都 无 法 从 查询 缓存 中 读 取 与 这 个 表 相 关 的 绥 
存 结 


当 事 务 提 交 时 ，InnoDB 持 有 锁 ， 并 使 用 当前 的 一 个 系统 事务 ID 更 
新 当前 表 的 计数 器 。 锁 一 定 程 度 上 说 明 事 务 需 要 对 表 进 行 修改 操作 ， 当 
然 有 可 能 事务 获得 锁 ， 却 不 进行 任何 更 新 操作 ， 但 是 如 果 想 更 新 任何 表 
的 内 容 ， 获 得 相应 锁 则 是 前 提 条 件 。InnoDB 将 每 个 表 的 计数 器 设置 成 
某 个 事务 ID， 而 这 个 事务 ID 就 代表 了 当前 存在 的 且 修 改 了 该 表 的 最 大 的 
事务 ID。 














那么 下 面 的 一 些 事实 也 就 成 立 : 


所 有 大 于 该 表 计 数 器 的 事务 才 可 以 使 用 得 询 缓存 。 例 如 当前 系统 的 
事务 ID 是 5， 且 事务 获取 了 该 表 的 东 些 记录 的 锁 ， 然 后 进行 事务 提 
交 操 作 ， 那 么 事务 1 至 4， 都 不 应 该 再 读 取 或 者 向 查询 缓存 写 入 任何 
相关 的 数据 。 

该 表 的 计数 器 并 不 是 直接 更 新 为 对 该 表 进 行 加 锁 的 事务 ID， 而 是 被 
更 新 成 一 个 系统 事务 ID。 上 所 以 ， 会 发 现 该 事务 自身 后 续 的 更 新 操作 
也 无 法 读 取 和 修改 奉 询 缓存 。 














查询 缓存 存储 、 检 索 和 失效 操作 都 是 在 MySQL 层 面 完成 ，InnoDB 


无 法 绕 过 或 者 延迟 这 个 行为 。 但 InnoDB 可 以 在 事务 中 显 式 地 告诉 
MySQL 何 时 应 该 让 某 个 表 的 查询 缓存 都 失效 。 在 有 外 键 限 制 的 时 候 这 
是 必须 的 ， 例 如 某 个 SQL 语句 有 ON DELETE CASCADE， 那 么 相关 联 表 的 
查询 缓存 也 是 要 一 起 失效 的 。 














原则 上 ， 在 InnoDB 的 MVCC 架 构 下 ， 当 茶 些 修改 不 影响 其 他 事务 读 
取 一 致 的 数据 时 ， 是 可 以 使 用 查询 缓存 的 。 但 是 这 样 实 现 起 来 会 非常 复 
杂 ，InnoDB 做 了 一 个 简化 ， 让 所 有 有 加 锁 操 作 的 事务 都 不 使 用 任何 得 
询 缓存 ， 这 个 限制 其 实 并 不 是 必须 的 。 


7.12.6 ”通用 查询 缓存 优化 





库 表 结构 的 设计 、 碍 询 语句 、 应 用 程序 设计 都 可 能 会 影响 到 得 询 组 
存 的 效率 。 除 了 前 文 介 绍 的 之 外 ， 这 里 还 有 一 些 要 点 需要 注意 : 














。 用 多 个 小 表 代 蔡 一 个 大 表 对 查询 绥 存 有 好 处 。 这 个 设计 将 会 使 得 失 
效 策略 能 够 在 一 个 更 合适 的 粒度 上 进行 。 当 然 ， 不 要 让 这 个 原则 过 
分 影响 你 的 设计 ， 毕 竟 其 他 的 一 些 优势 可 能 很 容易 就 弥补 了 这 个 问 
题 。 

批量 写 入 时 只 需要 做 一 次 缓存 失效 ， 所 以 相 比 单条 写 入 效率 更 好 。 
(另外 需要 注意 ， 不 要 同时 做 延迟 写 和 批量 写 ， 否 则 可 能 会 因为 失 
效 导 致 服务 器 伪 死 较 长 时 间 。) 

因为 缓存 空间 太 大 ， 在 过 期 操作 的 时 候 可 能 会 导致 服务 器 僵 死 。 一 
个 简单 的 解决 办 法 就 是 控制 缓存 空间 的 大 小 

(query_cache_size) ， 或 者 直接 禁用 查询 缓存 。 

无 法 在 数据 库 或 者 表 级 别 控制 查询 缓存 ， 但 是 可 以 通过 SQL_CACHE 
和 SQL_N0_CACHE 来 控制 某 个 SELECT 语句 是 否 需 要 进行 缓存 。 你 还 可 
































以 通过 修改 会 话 级 别 的 变量 query_cache_type 来 控制 查询 绥 存 。 

对 于 写 密 集 型 的 应 用 来 说 ， 直 接 禁 用 查询 缓存 可 能 会 提高 系统 的 性 
能 。 关 闭 查 询 缓存 可 以 移 除 所 有 相关 的 消耗 。 例 如 

将 query_cache_size 设 置 成 0， 那 么 至 少 这 部 分 就 不 再 消耗 任何 内 
存 了 。 

因为 对 互 斥 信号 量 的 竞争 ， 有 时 直接 关闭 查询 缓存 对 读 密 集 型 的 应 
用 也 会 有 好 处 。 如 果 你 希望 提高 系统 的 并 发 ， 那 么 最 好 做 一 个 相关 
的 测试 ， 对 比 打开 和 关闭 查询 缓存 时 候 的 性 能 差异 。 

















如 果 不 想 所 有 的 查询 都 进入 查询 缓存 ， 但 是 又 希望 某 些 查询 走 查 询 
缓存 ， 那 么 可 以 将 query_cache_type 设 置 成 DEMAND， 然 后 在 希望 缓存 的 
查询 中 加 上 SQL_CACHE。 这 虽然 需要 在 查询 中 加 入 一 些 额外 的 语法 ， 但 
是 可 以 让 你 非常 自由 地 控制 哪些 查询 需要 被 缓 在。 相反， 如 果 和 希望 缓存 
多 数 查 询 ， 而 少数 查询 又 不 希望 缓存 ， 那 么 你 可 以 使 用 关键 
字 SQL_NO_CACHE 。 


7.12.7 得 询 绥 存 的 奉 代 方案 


MySQL 碍 询 缓存 工作 的 原则 是 : 执行 查询 最 快 的 方式 就 是 不 去 执 
行 ， 但 是 查询 仍然 需要 发 送 到 服务 器 端 ， 服 务 费 也 还 需要 做 一 点 皮 工 
作 。 如 果 对 于 茶 些 但 询 完全 不 需要 与 服务 占 通 信 效 果 会 如 何 呢 ?这 时 客 
户 端的 缓存 可 以 很 大 程度 上 帮 你 分 担 MySQL 服 务 器 的 压力 。 我 们 将 在 
第 14 章 详细 介绍 更 多 关于 绥 存 的 内 容 。 























7.13 ”总 结 


本 章 详 细 介 绍 了 前 面 各 个 章节 中 所 到 的 一 些 MySQL 特 性 。 这 里 我 
们 将 再 来 回顾 一 下 其 中 的 一 些 重点 内 容 。 


分 区 表 


分 区 表 是 一 种 粗 粒 度 的 、 简 易 的 索引 策略 ， 运 用 于 大 数据 量 的 
过 小 场景 。 最 适合 的 场景 是 ， 在 没有 合适 的 索引 时 ， 对 其 中 几 个 分 
区 进行 全 表 扫 描 ， 或 者 是 只 有 一 个 分 区 和 索引 是 热 点 ， 而 且 这 个 分 
区 和 索引 能 够 都 在 内 存 中 ， 限 制 单 表 分 区 数 不 要 超过 150 个 ， 并 且 
注意 某 些 导致 无 法 做 分 区 过 滤 的 细节 ， 分 区 表 对 于 单条 记录 的 查询 
并 没有 什么 优势 ， 需 要 注意 这 类 但 询 的 性 能 。 




















视图 








对 好 几 个 表 的 复杂 得 询 ， 使 用 视图 有 时 候 会 大 大 简化 问题 。 当 
视图 使 用 临时 表 时 ， 无 法 将 WHERE 条 件 下 推 到 各 个 具体 的 表 ， 也 不 
能 使 用 任何 索引 ， 需 要 特别 注意 这 类 查询 的 性 能 。 如 果 为 了 便利 ， 
使 用 视图 是 很 合适 的 。 





外 键 


外 键 限 制 会 将 约束 放 到 MySQL 中 ， 这 对 于 必须 维护 外 键 的 场 
景 ， 性 能 会 更 高 。 不 过 这 也 会 带 来 额外 的 复杂 性 和 额外 的 索引 消 
耗 ， 还 会 增加 多 表 之 间 的 交互 ， 会 导致 系统 中 更 多 的 锁 和 竞争 。 外 
键 可 以 被 看 作 是 一 个 确保 系统 完整 性 的 额外 的 特性 ， 但 是 如 末 设 计 





xe TERE At, ALA SER RENE So IRE AE ETE 
意 系 统 的 性 能 的 时 候 都 不 会 使 用 外 键 ， 而 是 通过 应 用 程序 来 维护 。 


存储 过 程 


MySQL 本 里 实现 了 存储 过 程 、 触 发 占 、 和 存储 函数 和 事件 ， 老 
实说 ， 这 些 特性 并 没什么 特别 的 。 而 且 对 于 基于 语句 的 复制 还 有 很 
多 问题 。 通 常 ， 使 用 这 些 特性 可 以 帮 你 市 省 很 多 的 网 络 开 销 一 一 很 
多 情况 下 ， 减 少 网 络 开销 可 以 大 大 提升 系统 的 性 能 。 在 东 些 经 典 的 
场景 下 你 可 以 使 用 这 些 特性 〈 例 如 中 心 化 业务 馆 辑 、 纸 过 权限 系 
统 ， 等 等 ) ， 但 需要 注意 在 MySQL 中 ， 这 些 特性 并 没有 别 的 数据 
库 系 统 那么 成 熟 和 全 面 。 








KREE 


当 查 询 语句 的 解析 和 执行 计划 生成 消耗 了 主要 的 时 间 ， 那 么 绑 
定 变量 可 以 在 一 定 程度 上 解决 问题 。 因 为 只 需要 解析 一 次 ， 对 于 大 
量 重复 类 型 的 查询 语句 ， 性 能 会 有 很 大 的 提高 。 另 外 ， 执 行 计划 的 
缓存 和 传输 使 用 的 二 进 制 协议 ， 这 都 使 得 绑 定 变量 的 方式 比 普通 
SQL 语句 执行 的 方式 要 更 快 。 





插件 


使 用 C 或 者 C++ 编写 的 插件 可 以 让 你 最 大 程度 地 扩展 MySQL 功 
能 。 插 件 功能 非常 强大 ， 我 们 已 经 编写 了 很 多 UDEF 和 插件 ， 在 
MySQL 中 解决 了 很 多 问题 。 
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字符 集 是 一 种 字 节 到 字符 之 间 的 映射 ， 而 校对 规则 是 指 一 个 字 
符 集 的 排序 方法 。 很 多 人 都 使 用 Latin1 〈 默 认 字符 集 ， 对 英语 和 某 
些 欧 浏 语言 有 效 ) 或 者 UTF-8。 如 有 果 使 用 的 是 UTF-8， 那 么 在 使 用 
临时 表 和 缓冲 区 的 时 候 需 要 注意 : MySQL 会 按照 每 个 字符 三 个 字 
节 的 最 大 占用 空间 来 分 配 存储 空间 ， 这 可 能 消耗 更 多 的 内 存 或 者 磁 
盘 空间 。 注 意 让 字符 集 和 MySQL 字 符 集 配置 相符 ， 和 否则 可 能 会 由 
于 字符 集 转换 让 某 些 索引 无 法 正常 使 用 。 








全 文 索引 





在 本 书 编写 的 时 候 只 有 MyISAM 支 持 全 文 索引 ， 不 过 据说 从 
MySQL 5.6 开 始 ， InnoDB 也 将 文 持 全 文 索 引 。MyISAM 因 为 在 锁 粒 
度 和 有 骨 省 恢复 上 的 缺点 ， 使 得 在 大 型 全 文 索引 场景 中 基本 无 法 使 
用 。 这 时 ， 我 们 通常 帮助 客户 构建 和 使 用 Sphinx 来 解决 全 文 索引 的 


问题 。 


XA 事务 


很 少 有 人 用 MySQL 的 XA 事 务 特 性 。 除 非 你 真正 明白 参 


数 innodb_support_xa 的 意义 ， 否 则 不 要 修改 这 个 参数 的 值 ， 并 不 是 只 
有 显 式 使 用 XA 事务 时 才 需 要 设置 这 个 参数 。InnoDB 和 二 进 制 日 志 也 是 
需要 使 用 XA 事务 来 做 协调 的 ， 从 而 确保 在 系统 朋 湿 的 时 候 ， 数 据 能 够 
一 致 地 恢复 。 


查询 缓存 


完全 相同 的 查询 在 重复 执行 的 时 候 ， 碍 询 缓存 可 以 立即 返回 结 
果 ， 而 无 须 在 数据 库 中 重新 执行 一 次 。 根 据 我 们 的 经 验 ， 在 高 并 发 


压力 环境 中 查询 缓存 会 导致 系统 性 能 的 下 降 ， 甚 至 僵 死 。 如 果 你 一 
定 要 使 用 查询 缓存 ， 那 么 不 要 设置 太 大 内 存 ， 而 且 只 有 在 明确 收益 
的 时 候 才 使 用 。 那 该 如 何 判断 是 否 应 该 使 用 查询 缓存 呢 ? 建议 使 用 
Percona Server， 观 察 更 细致 的 日 志 ， 并 做 一 些 简 单 的 计算 。 还 可 以 
查看 绥 存 命中 率 〈 并 不 总 是 有 用 ) ~ “INSERTS#ISELECTLL 

率 ”( 这 个 参数 也 并 不 直观 ) 、 或 者 “命中 和 写 入 比率 ”( 这 个 参考 

意义 较 大 ) 。 碍 询 缓存 是 一 个 非常 方便 的 缓存 ， 对 应 用 程序 完全 透 
明 ， 无 须 任 何 额 外 的 编码 ， 但 是 ， 如 果 和 希望 有 更 高 的 缓存 效率 ， 我 
们 建议 使 用 memcached 或 者 其 他 类 似 的 解决 方案 。 第 14 音 介绍 了 更 
多 的 细节 供 大 家 参考 。 






































D 因为 可 以 在 这 里 存放 一 个 非法 的 日 期 ， 所 以 甚至 当 order_date 是 一 个 非 NULL 值 的 时 候 ， 











仍然 会 出 现 这 样 情况 。 


性 。 


D ”从 用 户 角 度 来 看 ， 这 应 该 是 一 个 缺陷 ， 不 过 从 MySQL 开 发 者 的 角度 来 看 这 是 一 个 特 




















(3) 这 些 特性 也 是 一 些 “ 鲜 为 人 知 的 犀利 ”特性 。 
(4) 这 里 的 “temp table” 并 不 是 指 真正 的 物理 上 存在 的 临时 表 。 没 有 经 过 这 些 改进 和 试验 ， 


VE 
























































MySQL 视 图 也 不 会 有 现在 的 效率 。 


(5) 在 MySQL 5.6 中 可 能 会 有 所 改进 ， 但 是 在 本 书写 作 的 时 候 5.6 还 没有 发 布 。 
(6) 这 个 语法 是 SQL/PSM 的 一 个 子 集 ，SQLPSM 是 SQL 标准 中 的 持久 化 存储 模块 ， 在 














ISO/IEC 9075-4:2003(E) 中 定义 。 






































(7) 有 一 些 专门 用 作 移植 的 工具 ， 例 如 tsql2mysql 项 目 就 是 专门 用 于 移植 SQL Server 上 的 存储 








过 程 。 参 考 : http://sourceforge.net/projects/tsql2mysql。 


选择 。 














(8) 通常 各 个 层 都 有 自己 的 缓存 。 一 一 译 者 注 
(9) MySQL 4.0 和 更 早 的 版 本 中 ， 如 果 设 置 服务 器 的 全 局 设置 ， 有 几 种 8 字 节 的 字符 集 可 以 

















(10) coercibilityO 函 数 的 返回 值 。 一 一 译 者 注 








(11) 即 排序 规 贝 


(12) 在 MySQL 


全 文 索引 本 身 还 是 有 很 多 限 外 
如 何 将 Sphinx 作 为 一 个 MySQL 内 部 搜索 引擎 来 使 月 














|。 一 一 译 者 注 
BUA, AY 























各 
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全 文 解析 器 插件 来 扩展 全 文 索引 的 功能 。 
的 应 用 场景 中 使 月 





导致 无 法 在 你 
Ho 











不 过 ，MySQL 的 
日 。 我 们 将 在 附录 F 中 介绍 


DT eA 














ay} 


















































(13) 在 测试 使 用 时 的 一 个 常见 错误 就 是 ， 只 是 用 很 小 的 数据 集合 进行 全 文案 引 ， 所 以 总 是 
无 法 返回 结果 。 原 因 在 于 ， 每 个 搜索 关键 词 都 可 能 在 一 半 以 上 的 记录 里 面 出 现 过 。 

(14) 事实 上 ， 全 文 索引 根本 不 会 对 太 短 或 者 太 长 的 词语 进行 索引 ， 但 是 这 里 说 的 不 是 一 回 
事 。 一 般 地 ，MySQL 本 身 并 不 会 因为 搜索 关键 词 过 长 或 过 短 而 忽略 这 些 词语 ， 但 是 查询 优化 器 








的 某 些 部 分 却 可 能 这 样 做 。 
(15) 在 撰写 本 书 的 时 候 , “批量 提交 ”的 问题 己 经 有 了 很 多 解决 方案 ， 其 中 至 少 有 三 种 是 很 





优秀 的 。 还 需要 进一步 观察 到 底 MySQL 官 方 会 采 月 
源码 。 目 前 ， 使 用 MariaDB 和 Percona Server 就 可 以 避免 这 个 问题 。 
一 个 常见 的 误区 是 认为 innodb_support_xa 只 有 在 需要 XA 事务 时 才 需 要 打开 。 这 是 错 
制 日 志 之 间 的 分 布 式 事务 。 如 果 你 真 


(16) 


RN: 该 参数 还 会 控 








你 的 数据 ， 你 需要 将 这 个 参数 打开 。 


(17) 有 一 种 方式 查询 缓存 可 能 和 原生 的 SQL 工作 方式 有 所 不 同 : 默认 的 ， 当 
以 通过 查询 缓存 返回 数据 。 你 可 以 通过 参 


LOCK 


数 query_cache_wlock_invalidate 打 开 或 者 关闭 这 包 


TABLES 锁 丛 


央 MyQSL 内 部 存储 引擎 和 二 进 
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昌 哪 一 种 ， 到 底 到 哪个 版 本 MySQL 才 会 合并 到 

















正 关心 














要 查询 的 表 被 





E 时 ， 查 询 仍 然 可 



































行为 








o 


将 所 有 的 注释 语句 删除 ， 然 后 


再 比较 



































(18) 对 于 这 个 规则 ，Percona Server 是 个 例外 。 它 会 
查询 语句 是 否 有 缓存 。 这 是 一 个 通用 的 需求 ， 这 样 可 以 在 查询 语句 中 带 入 更 多 的 处 理 过 程 信 
息 。 前 面 第 3 章 我 们 介绍 的 MySQL 监 控 系 统 就 依赖 于 此 。 





(19) 这 里 绘制 的 查询 缓存 内 存 分 配 图 ， 仍 然 是 一 种 简化 的 情况 。MySQL 实 际 管 


的 方式 比 这 要 更 复杂 。 如 果 你 想 知 道 更 多 的 细节 ， 在 源 代码 文件 sql/sql_cache.cc 开 头 的 注释 中 有 


非常 详细 的 解释 。 
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里 查询 缓存 


























(20) Percona 和 MariaDB 对 MySQL 慢 日 志 进 行 了 改进 ， 会 记录 慢 日 志 中 的 查询 是 否 命中 查询 











SoS ”优化 服务 器 设置 


在 这 一 章 ， 我 们 将 解释 为 MySQL 服 务 器 创建 一 个 靠 谱 的 配置 文件 
的 过 程 。 这 是 一 个 很 绕 的 过 程 ， 有 很 多 有 意思 的 关注 点 和 值得 关注 的 思 
路 。 关 注 这 些 点 很 有 必要 ， 因 为 创建 一 个 好 配置 的 最 快 方法 不 是 从 学 习 
配置 项 开始 ， 也 不 是 从 问 哪个 配置 项 应 该 怎么 设置 或 者 怎么 修改 开始 ， 
更 不 是 从 检查 服务 器 行为 和 询问 哪个 配置 项 可 以 提升 性 能 开始 。 最 好 是 
从 理解 MySQL 内 核 和 行为 开始 。 然 后 可 以 利用 这 些 知识 来 指导 配置 
MySQL。 最 后 ， 可 以 将 想 要 的 配置 和 当前 配置 进行 比较 ， 然 后 纠正 重 
要 并 且 有 价值 的 不 同 之 处 。 














人 们 经 常 问 ，“ 我 的 服务 器 有 32GB 内 存 ，12 核 CPU， 怎 样 配 置 最 
好 ? ”很 遗憾 ， 问 题 没 这 么 简单 。 服 务 器 的 配置 应 该 符合 它 的 工作 负 
载 、 数 据 ， 以 及 应 用 需求 ， 并 不 仅仅 看 硬件 的 情况 。 


MySQL 有 大 量 可 以 修改 的 参数 一 一 但 不 应 该 随便 去 修改 。 通 常 只 

要 把 基本 的 项 配置 正确 (大 部 分 情况 下 只 有 很 少 一 些 参 数 古 真正 重要 
的 ) ， 应 该 将 更 多 的 时 间 花 在 schema 的 优化 、 索 引 ， 以 及 查询 设计 上 。 
在 SE ye A FE ASE A E 
项 的 收益 通常 就 比较 小 了 。 





从 男 一 方面 来 说 ， 没 用 的 配置 导致 潜在 风险 的 可 能 更 大 。 我 们 碰 到 
过 不 止 一 个 “高 度 调 优 ”过 的 服务 器 不 集 地 崩 尝 ， 仿 止 服 务 或 者 运行 绥 
慢 ， 结 果 都 是 因为 错误 的 配置 导致 的 。 我 们 将 花 一 点 时 间 来 解释 为 什么 
会 及 生 这 种 情况 ， 并 且 告 诉 大 家 什么 是 不 该 做 的 。 





那么 什么 是 该 做 的 呢 ? 确保 基本 的 配置 是 正确 的 ， 例 如 InnoDB 的 


Buffer Pool 和 日 志文 件 缓存 大 小 ， 如 果 想 防止 出 问题 “提醒 一 人 下， 这样 
做 通常 不 能 提升 性 能 一 一 它们 只 能 避免 问题 ， 就 设置 一 个 比较 安全 和 
稳健 的 值 ， 剩 下 的 配置 就 不 用 管 了 。 如 果 碰 到 了 问题 ， 可 以 使 用 第 3 章 
提 到 的 技巧 小 心地 进行 诊断 。 如 果 问 题 是 由 于 服务 器 的 东部 分 导致 的 ， 
而 这 恰好 可 以 通过 东 个 配置 项 解决 ， 那 么 需要 做 的 就 是 更 改 配置 。 








有 时 候 ， 在 东 些 特定 的 场景 下 ， 也 有 可 能 设置 东 些 特殊 的 配置 项 会 
有 显著 的 性 能 提升 。 但 无 论 如 何 ， 这 些 特殊 的 配置 项 不 应 该 成 为 服务 器 
基本 配置 文件 的 一 部 分 。 只 有 当 发 现 特定 的 性 能 问题 才 应 该 设置 它们 。 
这 就 是 为 什么 我 们 不 建议 通过 寻找 有 问题 的 地 方 修改 配置 项 的 原因 。 如 
果 有 些 地 方 确实 需要 提升 ， 也 需要 在 查询 啊 应 时 间 上 有 所 体现 。 最 好 是 
从 查询 语句 和 啊 应 时 间 入 手 来 开始 分 析 问 题 ， 而 不 是 通过 配置 项 。 这 可 
以 节省 大 量 的 时 间 ， 避 免 很 多 的 问题 。 











另 一 个 节省 时 间 和 避免 及 烦 的 好 办 法 是 使 用 默认 配置 ， 除 非 是 明确 
地 知道 默认 值 会 有 问题 。 很 多 人 都 是 在 默认 配置 下 运行 的 ， 这 种 情况 非 
常 普 裔 。 这 使 得 默认 配置 是 经 过 最 多 实际 测试 的 。 对 配置 项 做 一 些 不 必 
要 的 修改 可 能 会 过 到 一 些 意料 之 外 的 bug。 








8.1 MYSQL 配置 的 工作 原理 


在 讨论 如 何 配置 MySQL 之 前 ， 我 们 先 来 解释 一 下 MySQL 的 配置 机 
制 。MySQL 对 配置 要 求 非常 宽松 ， 但 是 下 面 这 些 建议 可 能 会 为 你 节省 
大 量 的 工作 和 时 间 。 





首先 应 该 知道 的 是 MySQL 从 哪里 获得 配置 信息 : 命令 行 参数 和 配 
置 文件 。 在 类 UNIX 系 统 中 ， 配 置 文件 的 位 置 一 般 在 /etc/my.cn 戌 
者 /etc/mysql/my.cnf。 如 果 使 用 操作 系统 的 局 动 脚本 ， 这 通常 是 唯一 指定 
配置 设置 的 地 方 。 如 果 手 动 启动 MySQL， 例 如 在 测试 安装 时 ， 也 可 以 
在 命令 行 指 定 设置 。 实 际 上 ， 服 务 器 会 读 取 配 置 文件 的 内 容 ， 删 除 所 有 
注释 和 换行 ， 然 后 和 命令 行 选 项 一 起 处 理 。 




















八 汉 关 于 本 的 说 明 ， 因 为 很 多 MySQL 命 令 行 选项 服务 器 变量 相同 ， 我 们 有 时 反选 项 








和 变量 蔡 换 使 用 。 大 部 分 变量 和 它们 对 应 的 命令 行 选项 名 称 一 样 ， 但 是 有 一 些 例外 。 例 如 ，-- 
































memlock 选 项 设置 了 locked_in_memory 变 量 。 


任何 打算 长 期 使 用 的 设置 都 应 该 写 到 全 局 配置 文件 ， 而 不 是 在 命令 
行 特别 指定 。 人 否则 ， 如 果 侦 然 在 启动 时 志 了 设置 束 会 有 有 风险。 把 所 有 的 
配置 文件 放 在 同一 个 地 方 以 方便 检查 也 是 个 好 办 法 。 


一 定 要 清楚 地 知道 服务 器 配置 文件 的 位 置 ! 我 们 见 过 有 些 人 尝试 修 
改 配置 文件 但 是 不 生效 ， 因 为 他 们 修改 的 并 不 是 服务 器 读 取 的 文件 ， 例 
如 Debian 下 ，/etc/mysqlmy.cnf 才 是 MySQL 读 取 的 配置 文件 ， 而 不 
是 /etc/my.cnf。 有 时 候 好 几 个 地 方 都 有 配置 文件 ， 也 许 是 因为 之 前 的 系 
统管 理 员 也 没 搞 清 楚 情 况 ( 因 此 在 各 个 可 能 的 位 置 都 放 了 一 份 )。 如 果 


不 知道 当前 使 用 的 配置 文件 路 径 ， 可 以 答 斌 下面 的 操作 : 


$ which mysqld 

/usr/sbin/mysqld 

$ /usr/sbin/mysqld --verbose --help | grep -A 1 'Default opti 
Default options are read from the following files in the give 


/etc/mysql/my.cnf ~/.my.cnf /usr/etc/my.cnf 


对 于 服务 器 上 只 有 一 个 MySQL 实 例 的 典型 安装 ， 这 个 命令 很 有 
用 。 也 可 以 设计 更 复杂 的 配置 ， 但 是 没有 标准 的 方法 告诉 你 怎么 来 做 。 
MySQL 发 行 版 包含 了 一 个 现在 废弃 了 的 程序 ，MUmysqlmanager， 可 以 
在 一 个 有 多 个 独立 部 分 的 配置 文件 上 运行 多 个 实例 。〔 现 在 已 经 被 一 样 
古老 的 mysqld_multi 脚 本 替代 。) 然而 许多 操作 系统 发 行 版 本 在 启动 脚 
本 中 并 不 包含 或 使 用 这 个 程序 。 实 际 上 ， 很 多 系统 甚至 没有 使 用 
MySQL 提 供 的 启动 脚本 。 


配置 文件 通常 分 成 多 个 部 分 ， 每 个 部 分 的 开头 是 一 个 用 方 括 号 括 起 
来 的 分 段 名 称 。MySQL 程 序 通 常 读 取 跟 它 同名 的 分 段 部 分 ， 许 多 客户 
端 程序 还 会 读 取 client 部 分 ， 这 是 一 个 存放 公用 设置 的 地 方 。 服 务 需 通 
常 读 取 mysqld 这 一 段 。 一 定 要 确认 配置 项 放 在 了 文件 正确 的 分 段 中 ， 否 
则 配置 是 不 会 生效 的 。 


8.1.1 语法 、 作 用 域 和 动态 性 


配置 项 设置 都 使 用 小 写 ， 单 词 之 间 用 下 男 线 或 横 线 隔 开 。 下 面 的 例 
子 是 等 价 的 ， 并 且 可 能 在 命令 行 和 配置 文件 中 都 看 到 这 两 种 格式 : 














/usr/sbin/mysqld --auto-increment-offset=5 


/usr/sbin/mysqld --auto-increment-offset=5 





我 们 建议 使 用 一 种 固定 的 风格 。 这 样 在 配置 文件 中 搜索 配置 项 时 会 
容易 得 多 。 


D} 


配置 项 可 以 有 多 个 作用 域 。 有 些 设置 是 服务 器 级 的 《全 局 作用 
域 ) ， 有 些 对 每 个 连接 是 不 同 的 《会 话 作 用 域 ) ， 剩 下 的 一 些 是 对 象 级 
的 。 许 多 会 话 级 变量 跟 全 局 变量 相等 ， 可 以 认为 是 默认 值 。 如 宋 改 变 会 
话 级 变量 ， 它 只 影响 改动 的 当前 连接 ， 当 连接 关闭 时 所 有 参数 变更 都 会 
失效 。 下 面 有 一 些 例子 ， 你 应 该 清楚 这 些 不 同类 型 的 行为 : 








e query_cache_sizey 变 量 是 全 局 的 。 

。 sort_buffer_sizey 变 量 默认 是 全 局 相同 的 ， 但 是 每 个 线程 里 也 可 
以 设置 。 

e join_buffer_sizey 变 量 也 有 全 局 默认 值 且 每 个 线程 是 可 以 设置 
的 ， 但 是 知 一 个 查询 中 关联 多 张 表 ， 可 以 为 每 个 关联 分 配 一 个 关联 
绥 冲 Goin buffer) ， 所 以 每 个 查询 可 能 有 多 个 关联 缓冲 。 

















另外 ， 除 了 在 配置 文件 中 设置 变量 ， 有 很 多 变量 〈 但 不 是 所 有 ) 也 
ee 服务 器 运行 时 修改 。MySQL 把 这 些 归 为 动态 配置 变量 。 下 面 的 
语句 展示 了 动态 改变 sort_buffer_size 的 会 话 值 和 全 局 值 的 不 同方 式 : 














SET sort_buffer_size = <value>; 
SET GLOBAL sort_buffer_size = <value>; 
SET @@sort_buffer_size := <value>; 
SET @@session.sort_buffer_size := <value>; 


SET @@global.sort_buffer_size := <value>; 


ea 要 注意 MySQL 关 闭 时 可 能 丢失 这 些 设置 。 
如 果 想 保持 这 些 设置 ， 还 是 需要 修改 配置 文件 。 





如 果 在 服务 器 运行 时 修改 了 变量 的 全 局 值 ， 这 个 值 对 当前 会 话 和 其 
他 任何 已 经 存在 的 会 话 都 不 起 效果 ， 这 是 因为 会 话 的 变量 值 是 在 连接 创 
建 时 从 全 局 值 初始 化 来 的 。 在 每 次 变更 之 后 ， 应 该 检查 SHOW GLOBAL 
VARIABLES 的 输出 ， 确 认 已 经 按照 期 望 变 更 了 。 














有 些 变 量 使 用 了 不 同 的 单位 ， 所 以 必须 知道 每 个 变量 的 正确 单位 。 
例如 ，table_cache 变 量 指定 了 表 可 以 被 缓存 的 数量 ， 而 不 是 表 可 以 被 
绥 存 的 字 节 数 。key_buffer_size 则 是 以 字 节 为 单位 ， 还 有 一 些 其 他 变 
量 指定 的 是 页 的 数量 或 者 其 他 单位 ， 例 如 百分比 。 

















许多 变量 可 以 通过 后 级 指定 单位 ， 例 如 1M 表 示 一 百 万 字 节 。 然 而 ， 
这 只 能 在 配置 文件 或 者 作为 命令 行 参 数 时 有 效 。 当 使 用 SQL 的 SET 命令 
时 ， 必 须 使 用 数字 值 1048576， 或 者 1024*1024 这 样 的 表达 式 。 但 在 配置 
文件 中 不 能 使 用 表达 式 。 


有 个 特殊 的 值 可 以 通过 SET 命令 赋值 给 变量 : DEFAULT。 把 这 个 值 赋 
给 会 话 级 变量 可 以 把 变量 改 为 使 用 全 局 值 ， 把 它 赋值 给 全 局 变量 可 以 设 
置 这 个 变量 为 编译 内 置 的 默认 值 〈 不 是 在 配置 文件 中 指定 的 值 ) 。 当 需 
要 重 置 会 话 级 变量 的 值 回 到 连接 刚 打开 的 时 候 ， 这 是 很 有 用 的 。 建 议 不 
要 对 全 局 变量 这 么 用 ， 因 为 可 能 它 做 的 事 不 是 你 希望 的 ， 它 不 会 把 值 设 
置 到 服务 器 刚 启动 时 候 的 那个 状态 。 


8.1.2 设置 变量 的 副作用 














动态 设置 变量 可 能 导致 意外 的 副作用 ， 例 如 从 缓冲 中 刷新 脏 块 。 务 
必 小 心 那 些 可 以 在 线 更 改 的 设置 ， 因 为 它们 可 能 导致 数据 库 做 大 量 的 工 
作 。 


有 时 可 以 通过 名 称 推断 一 个 变量 的 作用 。 例 
如 ，max_heap_table_size 的 作用 就 像 听 起 来 那样 : 它 指定 隐 式 内 存 临 
时 表 最 大 允许 的 大 小 。 然 而 ， 命 名 约定 并 不 完全 一 样 ， 所 以 不 能 总 是 通 
过 看 名 称 来 猜测 一 个 变量 有 什么 效果 。 








让 我 们 来 看 一 些 常 用 的 变量 和 动态 修改 它们 的 效果 。 
key_buffer_size 


设置 这 个 变量 可 以 一 次 性 为 键 缓冲 区 (key buffer, ti HU REE 
key cache) 分 配 所 有 指定 的 空间 。 然 而 ， 操 作 系 统 不 会 真 的 立刻 分 
配 内 存 ， 而 是 到 使 用 时 才 真 正 分 配 。 例 如 设置 键 缓冲 的 大 小 为 
1GB， 并 不 意味 着 服务 器 立刻 分 配 1GB 的 内 存 。《〈 我 们 下 一 章 会 讨 
论 如 何人 查看 服务 器 的 内 存 使 用 。) 








MySQL 人 允许 创建 多 个 键 缓存 ， 这 一 章 后 面 我 们 会 探讨 这 个 问 
题 。 如 琳 把 非 默 认 键 缓存 的 这 个 变量 设置 为 0%，MySQL 将 丢弃 绥 存 
在 该 键 缓存 中 的 索引 ， 转 而 使 用 默认 键 缓存 ， 并 且 当 不 再 有 任何 引 
用 时 会 删除 该 键 缓存 。 为 一 个 不 存在 的 键 缓存 设置 这 个 变量 ， 将 会 
创建 新 的 键 缓存 。 对 一 个 已 经 存在 的 键 缓存 设置 非 零 值 ， 会 导致 刷 
新 该 键 缓存 的 内 容 。 这 会 阻塞 所 有 和 洽 试 访问 该 键 缓存 的 操作 ， 直 到 
刷新 操作 完成 。 


table cache_size 


设置 这 个 变量 不 会 立即 生效 一 一 会 延迟 到 下 次 有 线程 打开 表 才 
有 效果 。 当 有 线程 打开 表 时 ，MySQL 会 检查 这 个 变量 的 值 。 如 果 
值 大 于 缓存 中 的 表 的 数量 ， 线 程 可 以 把 最 新 打开 的 表 放 入 缓存 ， 如 
果 值 比 缓存 中 的 表 数 小 ，MySQL 将 从 缓存 中 删除 不 常 使 用 的 表 。 





thread cache size 


设置 这 个 变量 不 会 立即 生效 一 一 将 在 下 次 有 连接 被 关闭 时 产生 
效果 。 当 有 连接 被 关闭 时 ，MySQL 检 查 缓存 中 是 否 还 有 空间 来 组 
存 线程 。 如 果 有 空间 ， 则 缓存 该 线程 以 备 下 次 连接 重用 ; WRA 

空间 ， 它 将 销毁 该 线程 而 不 再 缓存 。 在 这 个 场景 中 ， 绥 存 中 的 线程 
数 ， 以 及 线程 缓存 使 用 的 内 存 ， 并 不 会 立刻 减少 ， 只 有 在 新 的 连接 
删除 缓存 中 的 一 个 线程 并 使 用 后 才 会 减少 。 (MySQL 只 在 关闭 连 
接 时 才 在 缓存 中 增加 线程 ， 只 在 创建 新 连接 时 才 从 缓存 中 删除 线 
程 。) 

















query_cache_size 


MySQL 在 局 动 的 时 候 ， 一 次 性 分 配 并 且 初 始 化 这 块 内 存 。 如 
果 修 改 这 个 变量 〈 即 使 设置 为 与 当前 一 样 的 值 ) ，MySQL 会 立刻 
no 重新 分 配 这 片 缓存 到 指定 大 小 ， 并 且 重 新 初 
始 化 内 存 。 这 可 能 花费 较 长 的 时 间 ， 在 完成 初始 化 之 前 服务 器 都 无 
res 因为 MySQL 是 逐个 清理 缓存 的 得 询 ， 不 是 一 次 性 全 
部 删 掉 。 





read buffer size 





MySQL 只 会 在 有 查询 需要 使 用 时 才 会 为 该 缓存 分 配 内 存 ， 并 


且 会 一 次 性 分 配 该 参数 指定 大 小 的 全 部 内 存 。 


read_ rnd _ buffer size 





MySQL 只 会 在 有 查询 需要 使 用 时 才 会 为 该 缓存 分 配 内 存 ， 并 
且 只 会 分 配 需要 的 内 存 大 小 而 不 是 全 部 指定 的 大 小 。 
Cmax_read_rnd_buffer_size 这 个 名 字 更 能 表达 这 个 变量 实际 的 含 
Vs) 


sort_buffer_size 


MySQL 只 会 在 有 得 询 需 要 做 排序 操作 时 才 会 为 该 缓存 分 配 内 
存 。 然 后 ， 一 旦 需要 排序 ，MySQL 就 会 立刻 分 配 该 参数 指定 大 小 
的 全 部 内 存 ， 而 不 管 该 排序 是 否 需 要 这 么 大 的 内 存 。 








我 们 在 其 他 地 方 也 对 这 些 参数 做 过 更 多 细节 的 说 明 ， 这 里 不 是 一 个 
完整 的 列表 。 这 里 的 目的 只 是 简单 地 告诉 大 家 ， 当 修改 一 些 和 常见 的 变量 
时 ， 会 有 哪些 期 望 的 行为 发 生 。 


对 于 连接 级 别 的 设置 ， 不 要 轻易 地 在 全 局 级 别 增 加 它们 的 值 ， 除 非 
确认 这 样 做 是 对 的 。 有 一 些 缓存 会 一 次 性 分 配 指 定 大 小 的 全 部 内 存 ， 而 
不 写实 际 上 是 否 需 要 这 么 大 ， 所 以 一 个 很 大 的 全 局 设置 可 能 导致 浪费 大 
量 内 存 。 更 好 的 办 法 是 ， 当 查询 需要 时 在 连接 级 别 单独 调 大 这 些 值 。 











最 常见 的 例子 是 sort_buffer_size， 该 参数 控制 排序 操作 的 缓存 大 
小 ， 应 该 在 配置 文件 里 把 它 配 置 得 小 一 些 ， 然 后 在 茶 些 查询 需要 排序 
时 ， 再 在 连接 中 把 它 调 大 。 在 分 配 内 存 后 ， MySQL 会 执行 一 些 初始 化 
的 工作 。 





另外 ， 即 使 是 非常 小 的 排序 操作 ， 排 序 缓存 也 会 分 配 全 部 大 小 的 内 
存 ， 所 以 如 果 把 参数 设置 得 超过 平均 排序 需求 太 多 ， 将 会 浪费 很 多 内 
存 ， 增 加 额外 的 内 存 分 配 开 销 。 许 多 读者 认为 内 存 分 配 古 一 个 很 简单 的 
操作 ， 听 到 内 存 分 配 的 代价 可 能 会 很 吃惊 。 不 需要 深入 很 多 技术 细 市 束 
可 以 讲 清楚 为 什么 内 存 分 配 也 是 昂 贯 的 操作 ， 内 存 分 配 包 括 了 地 址 空间 
的 分 配 ， 这 相对 来 说 是 比较 昂贵 的 。 特 别 在 Linux 上 ， 内 存 分 配 根据 大 
小 使 用 多 种 开销 不 同 的 策略 。 




















总 的 来 说 ， 设 置 很 大 的 排序 缓存 代价 可 能 非常 高 ， 所 以 除非 确定 必 
须要 这 么 大 ， 人 否则 不 要 擅 加 排序 缓存 的 大 小 。 


如 果 查 询 必须 使 用 一 个 更 大 的 排序 缓存 才能 比较 好 地 执行 ， 可 以 在 
查询 执行 前 增加 sort_buffer_size 的 值 ， 执 行 完成 后 恢复 为 DEFAULT。 





下 面 是 一 个 实际 的 例子 : 


SET @@session.sort_buffer_size := >value>; 
- Execute the query... 


SET @@session.sort_buffer_size := DEFAULT; 


可 以 将 类 似 的 代码 封装 在 函数 中 以 方便 使 用 。 其 他 可 以 设置 的 单个 
连接 级 别 的 变量 有 read buffer size、read rnd buffer size、 
tmp_table_ size、 以 及 myisam_sort_buffer size〈 在 修复 表 的 操作 中 
会 用 到 ) 。 








如 果 有 需要 也 可 以 保存 并 还 原 原 来 的 目 定 义 值 ， 可 以 像 下 面 这 样 
做 : 


SET @saved <unique variable name> := @@session.sort_buffer_si 


SET @@session.sort_buffer_size := <value>; 
-- Execute the query... 


SET @@session.sort_buffer_size := @saved_<unique_variable_nam 


E 排序 缓冲 大 小 是 关注 的 众多 “ 调 优 中 一 个 设置 。 一 些 人 似乎 认为 越 大 越 好 ， 我 们 其 














至 见 过 把 这 个 变量 设 为 1GB 的 。 这 可 能 导致 服务 器 尝试 分 配 太 多 内 存 而 和 朋 溃 ， 或 者 为 查询 初始 
化 排序 缓存 时 消耗 大 量 的 CPU， 这 不 是 什么 出 乎 意料 的 事 。 从 MySQL 的 Bug ”37359 可 以 看 到 有 


关于 这 个 问题 的 细节 。 
































不 要 把 排序 缓存 大 小 放 在 太 重 要 的 位 置 。 查 询 真 的 需要 128MB 的 内 存 来 排序 10 行 数据 然后 
返回 给 客户 端 吗 ?思考 一 下 查询 语句 是 什么 类 型 的 排序 、 多 大 的 排序 ， 首 先 考 虑 通过 索引 和 
SQL 写 法 来 避免 排序 (看 第 5 章 和 第 6 章 ) ， 这 比 调 优 排序 缓存 要 快 得 多 。 并 且 应 该 仔细 分 析 查 
询 开 销 ， 看 看 排序 是 否 是 无 论 如 何 都 需要 重点 关注 的 部 分 。 第 3 章 有 一 个 例子 ， 一 个 查询 执行 了 
一 个 排序 ， 但 是 没有 花 很 多 排序 时 间 。 
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8.1.3 AT] 


设置 变量 时 请 小 心 ， 并 不 是 值 越 大 就 越 好 ， 而 且 如 果 设 置 的 值 太 
局 ， 可 能 更 容易 导致 问 题 ， 可 能 会 由 于 内 存 不 足 导 致 服务 器 内 存 交 换 ， 
或 者 超过 地 址 空间 。 包 











应 该 始终 通过 监控 来 确认 生产 环境 中 变量 的 修改 ， 古 提高 还 是 降低 
了 服务 器 的 整体 性 能 。 基 准 测 试 是 不 够 的 ， 因 为 基准 测试 不 是 真实 的 工 
作 钠 载 。 如 果 不 对 服务 器 的 性 能 进行 实际 的 测量 ， 可 能 性 能 降低 了 都 没 
有 发 现 。 我 们 见 过 很 多 情况 ， 有 人 修改 了 服务 需 的 配置 ， 并 认为 它 提 高 
了 性 能 ， 其 实 服务 器 的 整体 性 能 恶化 了 ， 因 为 在 一 个 星期 或 一 天 的 不 同 
时 间 ， 工 作 负载 是 不 一 样 的 。 











RA HE, FACE CP See, Whee aa M 
同事 ) 大 量 的 工作 。 一 个 更 好 的 主意 是 把 配置 文件 置 于 版 本 控制 之 下 。 
无 论 如 何 ， 这 是 一 个 很 好 的 做 法 ， 因 为 它 让 你 有 机 会 撤销 变更 。 要 降低 
管理 很 多 配置 文件 的 复杂 性 ， 简 单 地 创建 一 个 从 配置 文件 到 中 央 版 本 控 
制 库 的 符号 链接 。 








在 开始 改变 配置 之 前 ， 应 该 优化 查询 和 schema， 至 少 先 做 明显 要 做 
的 事情 ， 例 如 添加 索引 。 如 果 先 深入 调整 配置 ， 然 后 修改 了 查询 语句 和 
schema， 也 许 需 要 回头 再 次 评估 配置 。 请 记 住 ， 除 非 硬 件 、 工 作 负 载 和 
数据 是 完全 静态 的 ， 人 否则 都 可 能 需要 重新 检查 配置 文件 。 实 际 上 ， 大 部 
分 人 的 服务 器 甚至 在 一 天 中 都 没有 稳定 的 工作 负载 一 一 意味 着 对 上 午 来 
说 “完美 ”的 配置 ， 下 午 就 不 对 了 ! 显然 ， 退 求 传说 中 的 “完美 ”配置 是 完 
全 不 切实 际 的 。 因 此 ， 没 有 必要 榨 干 服务 器 的 每 一 点 性 能 ， 实 际 上 ， 这 
种 调 优 的 时 间 投 入 产 出 是 非常 小 的 。 我 们 建议 在 “足够 好 ”的 时 候 就 可 以 
停 下 了 ， 除 非 有 理由 相信 停 下 会 导致 放弃 重大 的 性 能 提升 的 机 会 。 


8.1.4 ”通过 基准 测试 迭代 优化 


你 也 许 期 望 〈 或 者 相信 自己 会 期 望 ) 通过 建立 一 套 基 准 测 试 方案 ， 
然后 不 断 迭 代 地 验证 对 配置 项 的 修改 来 找到 最 佳 配置 方案 。 通 冲 我 们 都 
不 建议 大 家 这 么 做 。 这 需要 做 非常 多 的 工作 和 研究 ， 并 且 大 部 分 情况 下 
潜在 的 收益 是 非常 小 的 ， 这 可 能 导致 巨大 的 时 间 浪 费 。 而 把 时 间 论 在 检 
碍 备份 、 监 控 执 行 计划 的 变动 之 类 的 事情 上 ， 可 能 会 更 有 意义 。 




















即使 更 改 一 个 选项 后 基准 测试 出 现 了 提升 ， 也 无 法 知道 长 期 运行 后 
这 个 变更 会 有 什么 副作用 。 基 准 测试 也 不 能 衡量 一 切 ， 或 者 没有 运行 足 
够 长 的 时 间 来 检测 系统 的 长 期 稳定 性 ， 修 改 就 可 能 导致 如 周期 性 性 能 抖 





动 或 者 周期 性 的 慢 碍 询 等 问题 。 这 是 很 难 察 党 到 的 。 


有 的 时 候 我 们 运行 茶 些 组 合 的 基准 测试 ， 来 仔细 验证 或 压 测 服务 器 
的 茶 些 特定 部 分 ， 使 得 我 们 可 以 更 好 地 理解 这 些 行为 。 一 个 很 好 的 例子 
是 ， 我 们 使 用 了 很 多 年 的 一 些 基准 测试 ， 用 来 理解 IhnnoDB 的 刷新 行 
为 ， 来 寻找 更 好 的 刷新 算法 ， 以 适应 多 种 工作 负载 和 多 种 硬件 类 型 。 我 
们 经 党 测试 各 种 各 样 的 设置 ， 来 理解 它们 的 影响 以 及 怎么 优化 它们 。 但 
这 不 是 一 件 简单 的 事 一 一 这 可 能 会 花费 很 多 天 其 至 很 多 个 星期 一 一 而 且 
对 大 部 分 人 来 说 这 没有 收益， 因为 服务 器 特定 部 分 的 认识 局 限 往 往 会 掩 
莱 了 其 他 问题 。 例 如 ， 有 时 我 们 发 现 ， 特 定 的 设置 项 组 合 ， 在 特定 的 边 
缘 场 景 可 能 有 更 好 的 性 能 ， 但 是 在 实际 生产 环境 这 些 配置 项 并 不 真 的 合 
E, 例如， 浪费 大 量 的 内 存 ， 或 者 优化 了 否 吐 量 却 忽 略 了 骨 尝 恢复 的 影 
啊 。 


























如 果 必 须 这样 做 ， 我 们 建议 在 开始 配置 服务 器 之 前 ， 开 发 一 个 定制 
的 基准 测试 包 。 你 必须 做 这 些 事情 来 包含 所 有 可 能 的 工作 负载 ， 甚 至 包 
含 一 些 边 缘 的 场景 ， 例 如 很 庞大 很 复杂 的 查询 语句 。 在 实际 的 数据 上 重 
放 工 作 负 载 通 党 是 一 个 好 办 法 。 如 果 已 经 定位 到 了 一 个 特定 的 问题 点 
例如 一 个 查询 语句 运行 很 慢 一 一 也 可 以 尝试 专门 优化 这 个 点 ， 但 是 
可 能 不 知道 这 会 对 其 他 但 询 有 什么 负面 影响 。 





























最 好 的 办 法 是 一 次 改变 一 个 或 两 个 变量 ， 每 次 一 点 点 ， 每 次 更 改 后 
运行 基准 测试 ， 确 保 运行 足够 长 的 时 间 来 确认 性 能 是 否 稳定 。 有 时 结果 
可 能 会 令 你 感到 惊讶 ， 可 能 把 一 个 变量 调 大 了 一 点 ， 观 察 到 性 能 提升 ， 
然后 再 调 大 一 点 ， 却 发 现 性 能 大 幅 下 降 。 如 有 果 变 更 后 性 能 有 隐患 ， 可 能 
是 某 些 资 源 用 得 太 多 了 ， 例 如 ， 为 缓冲 区 分 配 太 多 内 存 、 频 繁 地 申请 和 
释放 内 存 。 另 外 ， 可 能 导致 MySQL 和 操作 系统 或 便 件 之 间 的 不 匹配 。 
例如 ， 我 们 发 现 sort_buffer_size 的 最 佳 值 可 能 会 被 CPU 缓存 的 工作 方 








式 影 响 ， 还 有 read_buffer_size 需 要 服务 器 的 预 读 和 LO 子 系统 的 配置 
相 匹 配 。 更 大 并 不 总 是 更 好 ， 还 可 能 更 糟 糙 。 一 些 变 量 也 依赖 于 一 些 其 
他 的 东西 ， 这 需要 通过 经 验 和 对 系统 架构 的 理解 来 学 习 。 








什么 情况 下 进行 基准 测试 是 好 的 建议 


对 于 前 面 提 到 不 建议 大 多 数 人 执行 基准 测试 的 情况 也 有 例外 的 时 
候 。 我 们 有 时 会 建议 人 们 跑 一 些 和 迭代 基准 测试 ， 尽 管 通常 跟 “ 服 务 器 
调 优 ”有 不 同 的 内 容 。 这 里 有 一 些 例子 : 


o 如 果 有 一 笔 大 的 投资 ， 如 购买 大 量 新 的 服务 器 ， 可 以 运行 一 下 基 
准 测 试 以 了 解 硬 件 需求 。 (这 里 的 上 下 文 指 是 容量 规划 ， 不 是 服 
务 器 调 优 ) ， 我 们 特别 喜欢 对 不 同 大 小 的 InnoDB 缓 冲 池 进 行 基准 
测试 ， 这 有 助 于 我 们 制定 一 个 “内 存 曲线 ”， 以 展示 真正 需要 多 
少 内 存 ， 不 同 的 内 存 容量 如 何 影响 存储 系统 的 要 求 。 

e 如 果 想 了 解 1nnoDB 从 衣 溃 中 恢复 需要 多 久 时 间 ， 可 以 反复 设置 一 
个 备 库 ， 故 意 让 它 前 溃 ， 然 后 “测试 ”lnnoDB 在 重启 中 需要 花费 
多 久 时 间 来 做 恢复 。 这 里 的 背景 是 做 高 可 用 性 的 规划 。 

e 以 读 为 主 的 应 用 程序 ， 在 慢 查 询 日 志 中 捕捉 所 有 的 查询 (或 者 
用 pt-query-digest 分 析 TCP 流 量 ) 是 个 很 好 的 主意 ， 在 服务 器 完 
全 打开 慢 查 询 日 志 记 录 时 ， 使 用 pt-log-player 重 放 所 有 的 慢 查 
询 ， 然 后 用 pt-query-digest 来 分 析 输 出 报告 。 这 可 以 观察 在 不 
同 硬件 、 软 件 和 服务 器 设置 下 ， 查 询 语句 运行 的 情况 。 例 如 ， 我 
们 曾经 帮助 客户 评估 迁移 到 更 多 的 内 存 但 硬盘 更 慢 的 服务 器 上 的 
性 能 变化 。 大 多 数 查 询 变 得 更 快 ， 但 一 些 分 析 型 查询 语句 变 慢 ， 
因为 它们 是 1/0 密 集 型 的 。 这 个 测试 的 上 下 文 背景 就 是 不 同 工 作 


负载 的 比较 。 


8.2 ”什么 不 该 做 


在 我 们 开始 配置 服务 器 之 前 ， 和 希望 至 励 大 家 去 避免 一 些 我 们 已 经 发 
现 有 风险 或 有 害 的 做 法 。 警 告 : 本 节 有 些 观 点 可 能 会 让 有 些 人 不 舒服 ! 


首先 ， 不 要 根据 一 些 “ 比 率 ” 来 调 优 。 一 个 经 典 的 按 “ 比 率 * 调 优 的 经 
验 法 则 是 ， 键 缓存 的 命中 率 应 该 高 于 茶 个 百分比 ， 如 末 命 中 率 过 低 ， 则 
应 该 增加 缓存 的 大 小 。 这 是 非常 错误 的 意见 。 无 论 别 人 怎么 跟 你 说 ， 绥 
存 命中 率 跟 缓 存 是 人 否 过 大 或 过 小 没有 关系 。 首 先 ， 命 中 率 取 决 于 工作 负 
载 一 一 菏 些 工作 负载 就 是 无 法 缓存 的 ， 不 管 缓存 有 多 大 一 一 其 次 ， 绥 存 
命中 没有 什么 意义 ， 我 们 将 在 后 面 解释 原因 。 有 时 当 缓 存 太 小 时 ， 命 中 
率 比 较 低 ， 增 加 缓存 的 大 小 确实 可 以 提高 命中 率 。 然 而 ， 这 只 是 个 偶然 
情况 ， 并 不 表示 这 与 性 能 或 适当 的 缓存 大 小 有 任何 关系 。 


























这 种 相关 性 ， 有 时 候 看 起 来 似乎 真正 的 问题 是 ， 人 们 开始 相信 和 它们 
将 永远 是 真 的 。Oracle DBA 很 多 年 前 就 放弃 了 基于 命中 率 的 调 优 ， 我 们 
希望 MySQL DBA 也 能 跟着 走 名。 我 们 更 强烈 地 希望 人 们 不 要 去 写 “ 调 优 
脚本 ， 把 这 些 危 险 的 做 法 编写 到 一 起 ， 并 教导 成 二 上 万 的 人 这 么 做 。 
这 引出 了 我 们 第 二 个 不 该 做 的 建议 : 不 要 使 用 调 优 脚本 ! 有 几 个 这 样 的 
可 以 在 互联 网 上 找到 的 脚本 非常 受 欢 迎 ， 最 好 是 忽略 它们 乌 。 








我 们 还 建议 避免 调 Ctuning) 这 个 词 ， 我 们 在 前 面 几 段 中 使 用 这 个 
词 是 有 点 随意 的 。 我 们 更 喜欢 使 用 “配置 〈Configuration ) ”或 “优化 
(Optimize) ”来 代 蔡 《只 要 这 是 你 真正 在 做 的 ， 见 第 3 音 ) 。“ 调 优 ” 这 
个 词 ， 容 易 让 人 联想 到 一 个 缺乏 纪律 的 新 手 对 服务 器 进行 微调 ， 并 观察 
发 生 了 什么 。 我 们 建议 上 一 市 的 练习 最 好 留 给 那些 正在 研究 服务 器 内 核 








的 人 。“ 调 优 ” 服 务 器 可 能 浪费 大 量 的 时 间 。 








另外 说 一 句 ， 在 互联 网 搜索 如 何 配置 并 不 总 是 一 个 好 主意 。 在 博 
客 、 论 坛 等 地 方 包 都 可 能 找到 很 多 不 好 的 建议 。 昌 然 许 多 专家 在 网 上 页 
献 了 他 们 了 解 的 东西 ， 但 并 不 总 是 能 容易 地 分 辨 出 哪些 是 正确 的 建议 。 
我 们 也 不 能 给 出 中 肯 的 建议 在 哪里 能 找到 真正 的 专家 急 。 但 我 们 可 以 
说 ， 可 信 的 、 声 蕉 好 的 MySQL 服 务 供应 商 一 般 比 简单 的 互联 网 搜索 更 
安全 ， 因 为 有 好 的 客户 才 可 能 做 出 正确 的 事情 。 然 而 ， 即 使 是 他 们 的 意 
见 ， 没 有 经 过 测试 和 理解 就 使 用 ， 也 可 能 有 危险 ， 因 为 它 可 能 对 某 种 解 
决 方案 有 了 思维 定 势 ， 跟 你 的 思维 不 一 样 ， 可 能 用 了 一 种 你 无 法 理解 的 
方法 





最 后 ， 不 要 相信 很 流行 的 内 存 消耗 公式 一 一 是 的 ， 就 是 MySQL 骨 
溃 时 自身 输出 的 那个 内 存 消 耗 公式 “〈 我 们 这 里 就 不 再 重复 了 ) 。 这 个 公 
式 已 经 很 古老 了 ， 它 并 不 可 靠 ， 甚 至 也 不 是 一 个 理解 MySQL 在 最 差 情 
况 下 需要 使 用 多 少 内 存 的 有 用 的 办 法 。 在 互联 网 上 可 能 还 会 看 到 这 个 公 
式 的 很 多 变种 。 即 使 在 原 公 式 上 增加 了 更 多 原来 没有 考虑 到 的 因素 ， 还 
是 有 同样 的 缺陷 。 事 实 上 不 可 能 非常 准确 地 把 握 MySQL 内 存 消 耗 的 上 
限 。MySQL 不 是 一 个 完全 严格 控制 内 存 分 配 的 数据 库 服务 器 。 这 个 结 
论 可 以 非常 简单 地 证 明 ， 登 录 到 服务 器 ， 并 执行 一 些 大 量 消耗 内 存 的 碍 
询 : 





mysql> SET @crash_me_1 := REPEAT('a', @@max_allowed_packet) ; 
mysql> SET @crash_me_2 := REPEAT('a', @@max_allowed_packet) ; 
# ... run a lot of these ... 


mysql> SET @crash_me_1000000 := REPEAT('a', @@max_allowed_pac 


在 一 个 循环 中 运行 这 些 语 句 ， 每 次 都 创建 新 的 变量 ， 最 后 服务 器 入 


存 必然 耗 尽 ， 然 后 系统 崩溃 ! 运行 这 个 测试 不 需要 任何 特殊 权限 。 


在 本 节 我 们 试图 说 明 的 观点 是 ， 有 时 候 我 们 在 那些 认为 我 们 很 做 慢 
的 人 面前 变 得 不 受 欢 迎 ， 他 们 认为 我 们 正在 试图 旗 毁 他 人 ， 把 目 己 塑 造 
成 唯一 的 权威 ， 或 者 觉得 我 们 是 在 试图 推销 我 们 的 服务 。 我 们 的 目的 不 
征 利 己 。 我 们 只 是 看 到 非常 多 很 糟糕 的 建议 ， 如 条 没有 足够 的 经 验 ， 这 
看 上 去 似乎 还 是 合理 的 。 必 外 我 们 重复 这 么 多 次 说 明 这 些 糟糕 的 建议 ， 
因为 我 们 认为 揭穿 一 些 神话 是 很 重要 的 ， 并 提醒 我 们 的 读者 要 小 心 他 们 
信任 的 那些 人 的 专业 水 准 。 我 们 还 是 尽量 避免 在 这 里 继续 说 这 些 不 好 听 
的 吧 。 








8.3 ”创建 MySQL 配 置 文件 


正如 我 们 在 本 章 开 头 提 到 的 ， 没 有 一 个 适合 所 有 场景 的 “最 佳 配置 
文件 ”， 比 方 说 ， 对 一 台 有 16 GB 内 存 和 12 块 硬盘 的 4 路 CPU 服务 器 ， 不 
会 有 一 个 相应 的 “最 佳 配 置 文件 >”。 应 该 开发 自己 的 配置 ， 因 为 即使 是 一 
个 好 的 起 点 ， 也 依赖 于 具体 是 如 何 使 用 服务 器 的 。 











MySQL 编 译 的 默认 设置 并 不 都 是 靠 谱 的 ， 虽 然 其 中 大 部 分 都 比较 
合适 。 它 们 被 设计 成 不 要 使 用 大 量 的 资源 ， 因 为 MySQL 的 使 用 目标 是 
非常 灵活 的 ， 它 并 没有 假设 自己 是 服务 器 上 唯一 的 应 用 。 默 认 情 况 下 ， 
MySQL 只 是 使 用 恰好 足够 的 资源 来 启动 ， 运 行 一 些 少量 数据 的 简单 查 
询 。 如 果 有 超过 几 MB 的 数据 ， 就 一 定 会 需要 自己 定制 MySQL 配 置 。 








你 可 能 会 先 从 一 个 包含 在 MySQL 发 行 版 本 中 的 示例 配置 文件 开 
始 ， 但 这 些 示例 配置 有 自己 的 问题 。 例 如 ， 它 们 有 很 多 注释 掉 的 设置 ， 
可 能 会 诱 使 你 认为 应 该 选择 一 个 值 ， 并 取消 注释 (这 有 点 让 人 联想 到 
Apache 配 置 文 件 ) 。 同 时 它们 有 很 多 乏味 的 注释 ， 只 是 为 了 解释 选项 的 
含义 ， 但 这 些 解释 并 不 总 是 通顺 、 完 整 甚至 正确 的 ， 有 些 选 项 甚至 并 不 
适用 于 流行 的 操作 系统 ! 最 后 ， 这 些 示 例 相 对 于 现代 的 硬件 和 工作 负 

载 ， 总 是 过 时 的 。 











MySQL 专 家 们 关于 如 何 解决 这 些 问题 多 年 来 进行 了 许多 对 话 ， 但 
这 些 问题 依然 存在 。 下 面 是 我 们 的 建议 : 不 要 使 用 这 些 文件 作为 “创建 
配置 文件 的 ) 起 点 ， 也 不 要 使 用 操作 系统 的 安装 包 目 带 的 配置 文件 。 最 
好 是 从 头 开 始 。 


这 就 是 本 章 要 做 的 事情 。 实 际 上 MySQL 的 可 配置 性 太 强 也 可 以 说 

个 弱点 ， 看 起 来 好 像 需要 人 花 很 多 时 间 在 配置 上 ， 其 实 大 多 数 配 置 的 默 
Mee EMERGE SS, Ar Winds ho A AC Ae AY DS 
EARTE. BE ATT ARNT AAG UE Se EN ae) as Bil 
配置 文件 ， 可 以 作为 目 己 的 服务 器 配置 文件 的 一 个 好 的 起 点 。 有 一 些 配 
置 项 是 必 选 的 ， 我 们 将 在 本 章 稍 后 解释 。 下 面 就 是 这 个 基础 配置 文件 : 


























[mysqld] 

# GENERAL 

datadir = /var/lib/mysql 
socket = /var/lib/mysql/mys 
pid_file = /var/lib/mysql/mys 
user = mysql 

port = 3306 


storage_engine 








InnoDBdefault_stor 


# INNODB 

innodb_buffer_pool_size = <value> 

innodb_log file_size = <value> 
innodb_file_per_table = 1 
innodb_flush_method = O_DIRECT 

# MyISAM 

key_buffer_size = <value> 

# LOGGING 

log_error = /var/lib/mysql/mys 
log_slow_queries = /var/lib/mysql/mys 
# OTHER 

tmp_table_size = 32M 


max_heap_table_size = 32M 


query_cache_type = 0 

query_cache_size = 0 

max_connections = <value> 
thread_cache_size = <value>thread_cach 
table_cache_size = <value>table_cache 
open_files_limit = 65535 

[client] 

socket = /var/lib/mysql/mys 
port = 3306 


和 你 见 过 的 其 他 配置 文件 名 相 比 ， 这 里 的 配置 选项 可 能 太 少 了 。 但 
实际 上 已 经 超过 了 许多 人 的 需要 。 有 一 些 其 他 类 型 的 配置 选项 可 能 也 会 
用 到 ， 比 如 二 进 制 日 志 ， 我 们 会 在 本 章 后 面 以 及 其 他 章节 履 盖 这 些 内 
容 。 

配置 文件 的 第 一 件 事 是 设置 数据 的 位 置 。 我 们 选择 了 /Nar/lib/mysql 
路 径 存储 数据 ， 因 为 在 许多 类 UNIX 系 统 中 这 是 最 常见 的 位 置 。 选 择 另 
外 的 位 置 也 没有 错 ， 可 以 根据 需要 决定 。 我 们 把 PID 文 件 也 放 到 相同 的 
位 置 ， 但 许多 操作 系统 希望 放 在 Nar/run 目 录 下 ， 这 也 可 以 。 只 需要 简 
单 地 为 这 些 选项 配置 一 下 就 可 以 了 。 顺 便 说 一 下 ， 不 要 把 Socket 文 件 和 
PID 文 件 放 到 MySQL 编 译 默 认 的 位 置 ， 在 不 同 的 MySQL 版 本 里 这 可 能 会 
导致 一 些 错误 。 最 好 明确 地 设置 这 些 文件 的 位 置 。〈 这 么 说 并 不 是 建议 
选择 不 同 的 位 置 ， 只 是 建议 确保 在 my.cnf 文 件 中 明确 指定 了 这 些 文件 的 
存放 地 点 ， 这 样 升 级 MySQL 版 本 时 这 些 路 径 就 不 会 改变 。) 





这 里 还 指定 了 操作 系统 必须 用 mysqgj 用 户 来 运行 mysqld 进 程 。 需 要 确 
保 这 个 账户 存在 ， 并 且 拥 有 操作 数据 目录 的 权限 。 端 口 设 置 为 默认 的 








3306， 但 有 时 可 能 需要 修改 一 下 。 





我 们 选择 InnoDB 作 为 默认 的 存储 引擎 ， 这 个 值得 向 大 家 解释 一 
下 。InnoDB 在 大 多 数 情 况 下 是 最 好 的 选择 ， 但 并 不 总 是 如 此 。 例 如 ， 
一 些 第 三 方 的 软件 ， 可 能 假设 默认 存储 引擎 是 MyISAM， 所 以 创建 表 时 
没有 指定 存储 引擎 。 这 可 能 会 导致 软件 故障 ， 例 如 ， 这 些 应 用 可 能 会 假 
定 可 以 创建 全 文 索引 四。 默认 存储 引擎 也 会 在 显 式 创建 临时 表 时 用 到 ， 
可 能 会 引起 服务 器 做 一 些 意料 之 外 的 工作 。 如 果 希 望 持久 化 的 表 使 用 
InnoDB， 但 所 有 临时 表 使 用 MyISAM， 那 应 该 确保 在 CREATE _ TABLE 语句 
中 明确 指定 了 存储 引擎 。 





一 般 情 况 下 ， 如 果 决 定 使 用 一 个 存储 引擎 作为 默认 引擎 ， 最 好 显 式 
地 进行 配置 。 许 多 用 户 认为 只 使 用 了 茶 个 特定 的 存储 引擎 ， 但 后 来 发 现 
正在 用 的 其 实 是 另 一 个 引擎 ， 就 是 因为 默认 配置 的 是 另外 一 个 引擎 。 





接 下 来 我 们 将 阐述 InnoDB 的 基础 配置 。InnoDB 在 大 多 数 情 况 下 如 
末 要 运行 得 很 好 ， 配 置 大 小 合适 的 缓冲 池 (Buffer Pool) 和 日 志文 件 
(Log File) 是 必须 的 。 默 认 值 都 太 小 了 。 其 他 所 有 的 InnoDB 设 置 都 是 
可 选 的 ， 尽 管 示例 配置 中 因为 可 管理 性 和 灵活 性 的 原因 局 用 了 
innodb_file_per_table。 设 置 InnoDB 日 志文 件 的 大 小 和 
innodb_fush_method 是 本 章 后 面 要 讨论 的 主题 ， 其 中 
innodb _fush _method 是 类 UNIX 系 统 特有 的 选项 。 











有 一 个 流行 的 经 验 法 则 说 ， 应 该 把 缓冲 池 大 小 设置 为 服务 器 内 存 的 
约 75%~80%。 这 是 另 一 个 偶然 有 效 的 “比率 ”， 但 并 不 总 是 正确 的 。 有 一 
个 更 好 的 办 法 来 设置 缓冲 池 大 小 ， 大 致 如 下 : 





1. 从 服务 器 内 存 总 量 开始 。 


2. 减 去 操作 系统 的 内 存 占用 ， 如 果 MySQL 不 是 唯一 运行 在 这 个 服务 
器 上 的 程序 ， 还 要 扣 掉 其 他 程序 可 能 占用 的 内 存 。 

3. 减 去 一 些 MySQL 自 吴 需 要 的 内 存 ， 例 如 为 每 个 查询 操作 分 配 的 一 
HEE TH 

A. 减 去 足够 让 操作 系统 缓存 InnoDB 日 志文 件 的 内 存 ， 至 少 是 足够 组 
存 最 近 经 常 访问 的 部 分 。〔 此 建议 适用 于 标准 的 MySQL，Percona 
Server 可 以 配置 日 志文 件 用 O_DIRECT 方 式 打开 ， 绕 过 操作 系统 组 
存 ) ， 留 一 些 内 存 至 少 可 以 缓存 二 进 制 日 志 的 最 后 一 部 分 也 是 个 很 
好 的 选择 ， 尤 其 是 如 果 复 制 产生 了 延迟 ， 备 库 就 可 能 读 取 主 库 上 旧 
的 二 进 制 日 志文 件 ， 给 主 库 的 内 存 造 成 一 些 压力 。 

5. 减 去 其 他 配置 的 MySQL 缓 冲 和 缓存 需要 的 内 存 ， 例 如 MyISAM 的 键 
缓存 (Key Cache) ， 或 者 查询 缓存 (Query Cache) 。 

6. 除 以 105%， 这 差不多 接近 InnoDB 管 理 缓冲 池 增 加 的 自身 管理 开 
销 。 

7. ARORA, APR TAHA. A RRARS AINA 
末 ， 但 是 如 果 分 配 太 多 可 能 就 会 是 件 很 糟糕 的 事情 。 











我 们 对 这 里 有 些 内 存 总 量 相关 的 问题 有 一 点 感到 厌倦 一 一 什么 
征 “ 操 作 系统 的 一 个 位 〈Bit) ”? 那 是 变化 的 ， 在 本 章 和 这 本 书 的 其 余部 
分 ， 我 们 将 对 此 做 一 定 深度 的 讨论 。 你 必须 了 解 你 的 系统 ， 并 且 估 算 它 
需要 多 少 内 存 才能 民 好 地 运转 。 这 是 为 什么 一 个 适合 所 有 场景 的 配置 文 
件 是 不 存在 的 。 经 验 ， 以 及 有 时 一 点 数学 知识 将 给 你 提供 指导 。 


下 面 是 一 个 例子 ， 假 设 有 一 个 192GB 内 存 的 服务 器 ， 只 运行 MySQL 
并 且 只 使 用 InnoDB， 没 有 查询 缓存 (Query Cache) ， 也 没有 非常 多 的 
连接 连 到 服务 器 。 如 果 日 志文 件 总 大 小 是 4 GB， 可 能 会 像 这 样 处 
H: “我 认为 所 有 内 存 的 59% 或 者 2GB， 取 较 大 的 那个 ， 应 该 足够 操作 系 





统 和 MySQL 的 其 他 内 存 需求 ， 为 日 志文 件 减 去 4 GB， 剩 下 的 都 给 
InnoDB 用 ”。 结 果 差 不 多 是 177 GB， 但 是 配置 得 稍微 低 一 点 可 能 是 个 好 
主意 。 比 如 可 以 先 配置 缓存 池 为 168GB。 在 服务 器 实际 运行 中 若 发 现 还 
有 不 少 内 存 没 有 分 配 使 用 ， 在 出 于 某 些 目的 有 机 会 重启 时 ， 可 以 再 适当 
调 大 缓冲 池 的 大 小 。 





























如 果 有 大 量 MyISAM 表 需要 绥 存 它们 的 索引 ， 结 果 自 然 会 有 很 大 不 
同 。 在 Windows 下 这 也 是 完全 不 同 的 ， 大 多 数 的 MySQL 版 本 在 Windows 
下 使 用 大 内 存 都 有 问题 (虽然 在 MySQL 5.5 中 有 所 改进 ) ， 或 者 是 出 于 
某 种 原因 不 使 用 O_DIRECT 也 会 有 不 同 的 结果 。 


正如 你 所 看 到 的 ， 从 一 开始 就 获得 精确 的 设置 并 不 是 关键 。 从 一 个 
比 默 认 值 大 一 点 但 不 是 大 得 很 离谱 的 安全 值 开始 是 比较 好 的 ， 在 服务 器 
运行 一 段 时 间 后 ， 可 以 看 看 服务 器 真实 情况 需要 使 用 多 少 内 存 。 这 些 东 
西 是 很 难 预 调 ， 因 为 MySQL 的 内 存 利用 率 并 不 总 是 可 以 预测 的 : 它 可 
能 依赖 很 多 的 因素 ， 例 如 查询 的 复杂 性 和 并 发 性 。 如 果 是 简单 的 工作 负 
载 ，MySQL 的 内 存 需求 是 非常 小 的 一 一 大 约 256 KB 的 每 个 连接 。 但 
是 ， 使 用 临时 表 、 排 序 、 存 储 过 程 等 的 复 淋 查询， 可 能 使 用 更 多 的 内 
FF o 


























这 就 是 我 们 选择 一 个 非常 安全 的 起 点 的 原因 。 可 以 看 到 ， 即 使 是 保 
守 的 InnoDB 的 缓冲 池 设 置 ， 实 际 上 也 是 服务 器 内 存 的 87.5% 一 一 超过 
75%， 这 就 是 为 什么 我 们 说 简单 地 按 比 例 是 不 正确 的 方法 的 原因 。 





我 们 建议 ， 当 配置 内 存 缓冲 区 的 时 候 ， 宁 可 谨慎， 而 不 是 把 它们 配 
置 得 过 大 。 如 果 把 缓冲 池 配 置 得 比 它 可 以 设 的 值 少 了 20%， 很 可 能 只 会 
对 性 能 产生 小 的 影响 ， 也 许 就 只 影 啊 几 个 百分点 。 如 果 设 置 得 大 了 
20%， 则 可 能 会 造成 更 严重 的 问题 : 内 存 交 换 、 磁 盘 持 动 ， 甚 至 内 存 耗 








尽 和 硬件 死机 。 


这 份 mnoDB 配 置 的 例子 说 明了 我 们 配置 服务 器 的 首选 途径 : 了 解 
它 内 部 做 了 什么 ， 以 及 参数 之 间 如 何 相互 影响 ， 然 后 再 决定 。 





时 间 改 变 一 切 


精确 地 配置 MySQL 的 内 存 缓冲 区 随 着 时 间 的 推移 变 得 不 那么 重 
要 。 当 一 个 强大 的 服务 器 只 有 4 GB 内 存 的 时 候 ， 我 们 努力 地 平衡 其 资 
源 使 它 可 以 运行 1000 个 连接 。 这 通常 需要 我 们 为 MySQL 保 留 16B 的 内 
存 ， 这 是 服务 器 总 内 存 的 四 分 之 一 ， 而 且 会 极 大 地 影响 我 们 设置 缓冲 
池 的 大 小 。Time Changes Everything The need to configure 
MySQL's memory buffers precisely has become less important 
over time. When a powerful server had 4 GB of memory, we 
worked hard to balance its resources so it could run a 


thousand connections. This typically required us to re- 


如 今 类 似 的 服务 器 有 144 6GB 的 内 存 ， 但 是 在 大 多 数 应 用 中 我 们 通 
常 看 到 的 连接 数 是 相同 的 ， 每 个 连接 的 缓冲 区 并 没有 真 的 改变 太 多 。 
因此 ， 我 们 可 能 会 慷慨 地 为 MySQL 保 留 46B 的 内 存 ， 这 只 是 九 牛 一 毛 而 
已 。 它 不 会 对 我 们 的 缓冲 池 的 大 小 设置 产生 太 大 影响 。 








示例 配置 文件 中 的 其 他 一 些 设置 ， 大 多 是 不 言 自明 的 ， 其 中 很 多 配 
置 都 是 是 与 否 的 判断 。 在 本 章 的 其 余部 分 ， 我 们 将 探讨 其 中 的 几 个 。 可 
以 看 到 ， 我 们 已 经 月 用 日 志 记 录 、 茶 用 了 碍 询 缓 企 ， 等 等 。 在 这 一 章 的 
后 面 ， 我 们 还 将 讨论 一 些 安全 性 和 完整 性 的 设置 ， 它 可 以 使 服务 器 更 强 











健 ， 并 对 防止 数据 损坏 和 其 他 问题 非常 有 帮助 。 我 们 并 没有 在 这 里 展示 


这 些 设置 。 


这 里 需要 解释 的 一 个 选项 是 open files 1imit。 在 典型 的 Linux 系 
统 上 我 们 把 它 设置 得 尽 可 能 大 。 现 代 操 作 系 统 中 打开 文件 句柄 开销 都 很 
小 。 如 果 这 个 参数 不 够 大 ， 将 会 碰 到 经 典 的 24 号 错误 ,， “打开 的 文件 太 


多 (too many open files) ”. 








跳 过 其 他 的 直接 看 到 末尾 ， 在 配置 文件 的 最 后 一 市 ， 是 为 了 如 
mysql 和 mysqladmin 之 类 的 客户 端 程序 做 的 设置 ， 可 以 简化 这 些 程序 连接 
到 服务 器 的 步 又。 应 该 为 客户 器 程序 设置 那些 匹配 服务 器 的 配置 项 。 





8.3.1 检查 MySQL 服 务 器 状态 变量 


有 时 可 以 使 用 SHOW GLOBAL STATUS 的 输出 ， 作 为 配置 的 输入 ， 以 更 
好 地 通过 工作 负载 来 自 定 义 配置 。 为 了 达到 最 佳 效 果 ， 既 要 看 绝对 值 ， 
又 要 看 值 是 如 何 随时 间 而 改变 的 ， 最 好 为 高 峰 和 非 高 峰 时 间 的 值 做 几 个 
快照 。 可 以 使 用 以 下 命令 每 隔 60 秒 来 查看 状态 变量 的 增 量变 化 : 


$ mysqladmin extended-status -ri60 





在 解释 配置 设置 的 时 候 ， 我 们 经 常会 提 到 随 着 时 间 的 推 欧 各 种 状态 
变量 的 变化 。 所 以 通常 可 以 预料 到 需要 分 析 如 刚才 那个 命令 的 输出 的 情 
况 。 有 一 些 有 用 的 工具 ， 如 Percona Toolkit 中 的 pt-mext 或 PT-mysqgl- 
summary， 可 以 简洁 地 显示 状态 计数 器 的 变化 ， 不 用 直接 看 那些 SHOW 命 
令 的 输出 。 





好 吧 ， 前 面 的 内 容 算 是 预 热 ， 接 下 来 我 们 将 进入 一 些 服务 器 内 核 的 


东西 ， 并 将 相关 的 配置 建议 穿插 在 其 中 。 然 后 再 回头 来 看 示例 配置 文 
件 ， 就 会 有 足够 的 背景 知识 来 选择 适当 的 配置 选项 的 值 了 。 


8.4 配置 内 存 使 用 


配置 MySQL 正 确 地 使 用 内 存量 对 高 性 能 是 至 关 重 要 的 。 肯 定 要 根 
据 需 求 来 定制 内 存 使 用 。 可 以 认为 MySQL 的 内 存 消耗 分 为 两 类 : 可 以 
控制 的 内 存 和 不 可 以 控制 的 内 存 。 无 法 控制 MySQL 服 务 嚣 运行、 解析 
查询 ， 以 及 其 内 部 管理 所 消耗 的 内 存 ， 但 是 为 特定 目的 而 使 用 多 少 内 存 
则 有 很 多 参数 可 以 控制 名。 用 好 可 以 控制 的 内 存 并 不 难 ， 但 需要 对 配置 
的 含义 非常 清楚 。 


像 前 面 展 示 的 ， 按 下 面 的 步 又 来 配置 内 存 : 


1. 确定 可 以 使 用 的 内 存 上 限 。 

2. 确定 每 个 连接 MySQL 需 要 使 用 多 少 内 存 ， 例 如 排序 缓冲 和 临时 
Ro 

3. 确定 操作 系统 需要 多 少 内 存 才 够 用 。 包 括 同 一 人 台 机 器 上 其 他 程序 使 
用 的 内 存 ， 如 定时 任务 。 

A. 把 剩 下 的 内 存 全 部 给 MySQL 的 缓存 ， 例 如 InnoDB 的 缓冲 池 ， 这 样 
做 很 有 意义 。 


我 们 将 在 后 面 的 章节 详细 说 明 这 些 步骤 ， 然 后 我 们 对 各 种 MySQL 
的 缓存 需求 做 更 细节 的 分 析 。 


8.4.1 MySQL 可 以 使 用 多 少 内 存 


在 任何 给 定 的 操作 系统 上 ，MySQL 都 有 人 允许 使 用 的 内 存 上 限 。 基 


ASH AC RAED Lat EB S EDENE. WRIA ENARA BA 
存 ，MySQL 肯 定 也 不 能 用 这 么 多 内 存 。 


还 需要 考虑 操作 系统 或 架构 的 限制 ， 如 32 位 操作 系统 对 一 个 给 定 的 
进程 可 以 处 理 多 少 内 存 是 有 限制 的 。 因 为 MySQL 是 单 进程 多 线程 的 运 
行 模式 ， 它 整体 可 用 的 内 存量 也 许 会 受 操 作 系 统 位 数 的 严格 限制 一 一 例 
如 ，32 位 Linux 内 核 通 常 限制 任意 进程 可 以 使 用 的 内 存量 在 2.5GB~ 
2.7GB 范 围 内 。 运 行 时 地 址 空间 溢出 是 非常 危险 的 ， 可 能 导致 MySQL 崩 
溃 。 现 在 这 种 情况 非常 难得 一 见 ， 但 以 前 这 种 情况 很 常见 。 


有 许多 其 他 的 操作 系统 一 一 特殊 的 参数 和 古怪 的 事情 必须 考虑 到 ， 
例如 不 只 是 每 个 进程 有 限制 ， 而 且 堆 栈 大 小 和 其 他 设置 也 有 限制 。 系 统 
的 9g1 动 c 库 也 可 能 限制 每 次 分 配 的 内 存 大 小 。 例 如 ， 知 glibc 库 文 持 单 次 分 
配 的 最 大 大 小 是 2GB， 那 么 可 能 就 无 法 设置 innodb_buffer_poo1 的 值 大 
于 2 GB. 








即使 在 64 位 服务 器 上 ， 依 然 有 一 些 限 制 。 例 如 ， 许 多 我 们 讨论 的 绥 
冲 区 ， 如 键 缓存 (Key Buffer) ， 在 5.0 以 及 更 早 的 MySQL 版 本 上 ， 有 
4GB 的 限制 ， 即 使 在 64 位 服务 器 上 也 是 如 此 。 在 MySQL 5.1 中 ， 部 分 限 
制 被 取消 了 ， 在 MySQL 手 册 中 记载 了 每 个 变量 的 最 大 值 ， 有 需要 可 以 
查阅 。 


8.4.2 ”每 个 连接 需要 的 内 存 


MySQL 保 持 一 个 连接 (线程 ) 只 需要 少量 的 内 存 。 它 还 要 求 一 个 
基本 量 的 内 存 来 执行 任何 给 定 查 询 。 你 需要 为 高 峰 时 期 执行 的 大 量 碍 询 
预 留 好 足够 的 内 存 。 人 否则 ， 碍 询 执行 可 能 因为 缺乏 内 存 而 导致 执行 效率 














不 佳 或 执行 失败 。 


知道 在 高 峰 时 期 MYSQL 将 消耗 多 少 内 存 是 非常 有 用 的 ， 但 一 些 习 
惯性 用 法 可 能 意外 地 消耗 大 量 内 存 ， 这 使 得 对 内 存 使 用 量 的 预测 变 得 比 
较 困 难 。 绑 定 变 量 就 是 一 个 例子 ， 因 为 可 以 一 次 打开 很 多 绑 定 变量 语 
句 。 男 一 个 例子 是 InnoDB 数 据 字典 (关于 这 个 后 面 我 们 再 细 说 〉。 











当 预 测 内 存 峰 值 消 耗 时 ， 没 必要 假设 一 个 最 坏 情况 。 例 如 ， 配 置 
MySQL 人 允许 最 多 100 个 连接 ， 在 理论 上 可 能 出 现 100 个 连接 同时 在 运行 
很 大 的 查询 ， 但 在 现实 情况 中 ， 这 可 能 不 会 发 生 。 例 如 ， 设 
置 myisam sort buffer size 为 256MB， 最 差 情况 下 至 少 需要 使 用 25 GB 
内 存 ， 但 这 种 最 差 情 况 在 实际 中 几乎 是 不 可 能 发 生 的 。 使 用 了 许多 大 的 
临时 表 或 复杂 存储 过 程 的 查询 ， 通 党 是 导致 高 内 存 消耗 最 可 能 的 原因 。 


























相对 于 计算 最 坏 情 况 下 的 开销 ， 更 好 的 办 法 是 观察 服务 器 在 真实 的 
工作 压力 下 使 用 了 多 少 内 存 ， 可 以 在 进程 的 虚拟 内 存 大 小 那里 看 到 。 在 
许多 类 UNIX 系 统 里 ， 可 以 观察 top 命 令 中 的 VIRT 列 ， 或 者 ps 命令 中 的 VSZ 
列 的 值 。 下 一 章 有 更 多 关于 如 何 监视 内 存 使 用 情况 的 信息 。 


8.4.3 ”为 操作 系统 傈 留 内 存 


跟 碍 询 一 样 ， 操 作 系统 也 需要 保留 足够 的 内 存 给 它 工 作 。 如 果 没 有 
虚拟 内 存 正在 交换 (Paging) 到 磁盘 ， 束 是 表明 操作 系统 内 存 足 够 的 最 
佳 迹象 。〔( 关 于 这 个 话题 ， 请 参阅 下 一 章 。) 














至 少 应 该 为 操作 系统 保留 1GB~2GB 的 内 存 一 一 如 果 机 器 内 存 更 多 
就 再 多 预 留 一 些 。 我 们 建议 ?2 GB 或 总 内 存 的 5% 作 为 基准 ， 以 较 大 者 为 
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型 任务 〈 如 备份 ) ， 则 可 以 再 多 增加 一 些 预 留 。 不 要 为 操作 系统 的 缓存 
增加 任何 内 存 ， 因 为 它们 可 能 会 变 得 非常 大 。 操 作 系 统 通 利 会 利用 所 有 
剩 下 的 内 存 来 做 文件 系统 缓存 ， 我 们 认为 ， 这 应 该 从 操作 系统 自身 的 需 
求 里 分 离 出 来 。 


8.4.4 ”为 缓存 分 配 内 存 


如 果 服 务 器 只 运行 MySQL， 所 有 不 需要 为 操作 系统 以 及 查询 处 理 
保留 的 内 存 都 可 以 用 作 MySQL 绥 存 。 





相 比 其 他 ，MySQL 需 要 为 缓存 分 配 更 多 的 内 存 。 它 使 用 绥 存 来 避 
免 磁 盘 访 问 ， 磁 盘 访 问 比 内 存 访 问 数据 要 慢 得 多 。 操 作 系统 可 能 会 缓存 
一 些 数据 ， 这 对 MySQL 有 些 好 处 (尤其 是 对 MyISAM) ， 但 是 MySQL 
自身 也 需要 大 量 内 存 。 





下 面 是 我 们 认为 对 大 部 分 情况 来 说 最 重要 的 缓存 : 


e InnoDB 绥 冲 池 

。 InnoDB 日 志文 件 和 MyISAM 数 据 的 操作 系统 缓存 
。 MYyISAM 键 缓存 

。 查询 缓存 


无 法 手工 配置 的 缓存 ， 例 如 二 进 制 日 志和 表 定 义 文件 的 操作 系统 组 
存 


还 有 些 其 他 缓存 ， 但 是 它们 通 和 不 会 使 用 太 多 内 存 。 我 们 在 前 面 的 
章节 中 讨论 了 查询 缓存 (Query Cache) 的 细节 ， 所 以 接 下 来 的 部 分 我 


们 专注 于 InnoDB 和 MyISAM 和 良好 工作 需要 的 缓存 。 


如 果 只 使 用 单一 存储 引擎 ， 配 置 服务 器 就 简单 多 了 。 如 果 只 使 用 
MyISAM 表 ， 就 可 以 完全 关闭 InnoDB， 而 如 果 只 使 用 InnoDB， 就 只 需 
要 分 配 最 少 的 资源 给 MyISAM (MySQL 内 部 系统 表 采 用 MyISAM) 。 但 
是 如 果 正 混合 使 用 各 种 存储 引擎 ， 就 很 难 在 它们 之 间 找 到 恰当 的 平衡 。 
我 们 发 现 最 好 的 办 法 是 先 做 一 个 有 根据 的 猜测 ， 然 后 在 运行 中 观察 服务 
器 《再 进行 调整 ) 。 





8.4.5”InnoDB 绥 冲 池 (Buffer Pool) 


如 果 大 部 分 都 是 ImnoDB 表 ，InnoDB 绥 冲 池 或 许 比 其 他 任何 东西 更 
需要 内 存 。InnoDB 绥 冲 池 并 不 仅仅 绥 存 索引 : 它 还 会 绥 存 行 的 数据 、 
自 适 应 哈 希 索引 、 捕 入 缓冲 (Insert Buffer) 、 锁 ， 以 及 其 他 内 部 数据 结 
构 。InnoDB 还 使 用 绥 冲 池 来 帮助 延 人 运 写 入 ， 这 样 就 能 合并 多 个 写 入 操 
作 ， 然 后 一 起 顺序 地 写 回 。 总 之 ，ImnoDB 严 重 依赖 缓冲 池 ， 你 必须 确 
认为 它 分 配 了 足够 的 内 存 ， 通 常 就 像 这 一 章 前 面 展示 的 那样 处 理 。 可 以 
使 用 通过 SHOW 命 令 得 到 的 变量 或 者 例如 innotop 这 样 的 工具 监控 
InnoDB 绥 冲 池 的 内 存 利用 情况 。 





如 果 数 据 量 不 大 ， 并 且 不 会 快速 增长 ， 束 没 必 要 为 缓冲 池 分 配 过 多 
的 内 存 。 把 缓冲 池 配 置 得 比 需 要 缓存 的 表 和 索引 还 要 大 很 多 实际 上 没有 
什么 意义 。 当 然 ， 对 一 个 迅速 增长 的 数据 库 做 超前 的 规划 没有 错 ， 但 有 
时 我 们 也 会 看 到 一 个 巨大 的 缓冲 池 只 缓存 一 点 点 数据 ， 这 就 没有 必要 
Ta 

















很 大 的 缓冲 池 也 会 带 来 一 些 挑 战 ， 例 如 ， 预 热 和 关闭 都 会 花费 很 长 





的 时 间 。 如 果 有 很 多 脏 页 在 绥 冲 池 里 ，InnoDB 关 闭 时 可 能 会 花费 较 长 
的 时 间 ， 因 为 在 关闭 之 前 需要 把 脏 页 写 回 数据 文件 。 也 可 以 强制 快速 关 
闭 ， 但 是 重启 时 就 必须 多 做 更 多 的 恢复 工作 ， 也 就 是 说 无 法 同时 加 速 关 
闭 和 重启 两 个 动作 。 如 果 事 先知 道 什 么 时 候 需要 关闭 InnoDB， 可 以 在 
运行 时 修改 innodb_max_dirty_pages_pct 变 量 ， 将 值 改 小 ， 等 待 刷新 线 
程 清理 绥 冲 池 ， 然 后 在 脏 页 数量 较 少 时 关闭 。 可 以 监控 the 
Innodb_buffer_pool_pages_dirty 状 态 变 量 或 者 使 用 innotop 来 监控 SHOW 
INNODB STATUS 来 观察 脏 页 的 刷新 量 。 











更 小 的 innodb max dirty pages_pct 变 量 值 并 不 保证 InnoDB 将 在 

绥 冲 池 中 保持 更 少 的 脏 页 。 它 只 是 控制 mhnoDB 是 人 否 可 以 “偷懒 

(Lazy) ”的 国 值 。InnoDB 默 认 通 过 一 个 后 台 线 程 来 刷新 及 页 ， 并 且 会 
合并 写 入 ， 更 高 效 地 顺序 写 出 到 磁盘 。 这 个 行为 之 所 以 被 称 为 “偷懒 

(Lazy) ”, 是 因为 它 使 得 mnoDB 延 迟 了 绥 冲 池 中 刷 写 脏 页 的 操作 ， 直 
到 一 些 其 他 数据 必须 使 用 空间 时 才 刷 号 。 当 脏 页 的 百分比 超过 了 这 个 转 
值 ，InnoDB 将 快速 地 刷 写 脏 页 ， 洽 试 让 脏 页 的 数量 更 低 。 当 事务 日 志 
没有 足够 的 空间 剩余 时 ，InnoDB 也 将 进入 “激烈 刷 写 〈EFurious 
Flushing) ”模式 ， 这 就 是 大 日 志 可 以 提升 性 能 的 一 个 原因 。 











当 有 一 个 很 大 的 缓冲 池 ， 重 启 后 服务 器 也 许 需 要 花 很 长 的 时 间 ( 几 
个 小 时 甚至 几 天 ) 来 预 热 缓冲 池 ， 尤 其 是 磁盘 很 慢 的 时 候 。 在 这 种 情况 
下 ， 可 以 利用 Percona Server 的 功能 来 重新 载 入 缓冲 池 的 页 名 ， 从 而 节省 
时 间 。 这 可 以 让 预 热 时 间 减 少 到 几 分 钟 。MySQL 5.6 也 提供 了 一 个 类 似 
的 功能 。 这 个 功能 对 复制 尤其 有 好 处 ， 因 为 单线 程 复 制导 致 备 库 需要 额 
外 的 预 热 时 间 。 





如 果 不 能 使 用 Percona Server 的 快速 预 热 功 能 ， 也 可 以 在 重启 后 立刻 
进行 全 表 扫 描 或 者 索引 扫描 ， 把 索引 载 入 绥 冲 池 。 这 是 比较 粗暴 的 方 











式 ， 但 是 有 时 候 比 什么 都 不 做 还 是 要 好 。 可 以 使 用 init_file 设 置 来 实现 这 
个 功能 。 把 SQL 放 到 一 个 文件 里 ， 然 后 当 MySQL 启 动 的 时 候 来 执行 。 文 
件 名 必须 在 init_file 选 项 中 指定 ， 文 件 中 可 以 包含 多 条 SQL 命 令 ， 每 一 条 
单独 一 行 〈 不 允许 使 用 注释 ) 。 


8.4.6 ”MyISAM 键 缓存 (Key 
Caches) 


MyISAM 的 键 缓存 也 被 称 为 键 缓冲 ， 默 认 只 有 一 个 键 缓存 ， 但 也 可 
以 创建 多 个 。 不 像 mnoDB 和 其 他 一 些 存 储 引 擎 ，MyISAM 自 身 只 缓存 索 
引 ， 不 缓存 数据 《依赖 操作 系统 缓存 数据 ) 。 如 果 大 部 分 是 MyISAM 
表 ， 就 应 该 为 键 缓存 分 配 比较 多 的 内 存 。 


最 重要 的 配置 项 是 key_buffer_size。 任 何 没 有 分 配给 它 的 内 存 99) 
都 可 以 被 操作 系统 缓存 利用 。MySQL 5.0 有 一 个 规定 的 有 效 上 限 是 
4GB， 不 管 系统 是 什么 架构 。MySQL 5.1 人 允许 更 大 的 值 。 可 以 查看 正在 
使 用 的 MySQL 版 本 的 官方 手册 来 了 解 这 个 限制 。 


在 决定 键 缓存 需要 分 配 多 少 内 存 之 前 ， 先 去 了 解 MyISAM 索 引 实 际 
上 占用 多 少 磁 盘 空 间 是 很 有 帮助 的 。 肯 定 不 需要 把 键 缓冲 设置 得 比 需 要 
绥 存 的 索引 数据 还 大 。 查 询 INFORMAT1ON_SCHEMA 表 的 INDEX_LENGTH 字 
段 ， 把 它们 的 值 相 加 ， 就 可 以 得 到 索引 存储 占用 的 空间 : 











SELECT SUM(INDEX_LENGTH) FROM INFORMATION_SCHEMA. TABLES WHERE 


如 果 是 类 UNIX 系 统 ， 也 可 以 使 用 下 面 的 命令 : 


$ du -sch ‘find /path/to/mysql/data/directory/ -name"* .MYI". 


应 该 把 键 缓存 设置 得 多 大 ? 不 要 超过 索引 的 总 大 小 ， 或 者 不 超过 为 
操作 系统 缓存 保留 总 内 存 的 25% 一 50%， 以 更 小 的 为 准 。 


默认 情况 下 ，MYyISAM 将 所 有 索引 都 缓存 在 默认 键 缓存 中 ， 但 也 可 
以 创建 多 个 命名 的 键 缓冲 。 这 样 承 可 以 同时 绥 存 超过 4GB 的 内 存 。 如 果 
要 创建 名 为 key_buffer 1 和 key_buffer_2 的 键 缓冲 ， 每 个 大 小 为 1GB， 
则 可 以 在 配置 文件 中 添加 如 下 配置 项 : 





key_buffer_1.key_buffer_size = 1G 
key_buffer_2.key_buffer_size = 1G 


现在 有 了 三 个 键 缓冲 : 两 个 由 这 两 行 配置 明确 定义 ， 还 有 一 个 是 默 
认 键 缓冲 。 可 以 使 用 CACHE ”I1NDEX 命 令 来 将 表 映 射 到 对 应 的 缓冲 区 。 使 
用 下 面 的 语句 ， 让 MySQL 使 用 key_buffer_1 绥 冲 区 来 缓存 t1 和 t2 表 的 
索引 : 


现在 当 MySQL 从 这 些 表 的 索引 读 取 块 时 ， 将 会 在 指定 的 缓冲 区 内 
绥 人 存 这 些 块 。 也 可 以 把 表 的 索引 预 载 入 到 缓存 中 ， 通 过 init_file 设 置 
或 者 LOAD 1NDEX 命 令 : 


任何 没 明确 指定 映射 到 哪个 键 缓冲 区 的 索引 ， 在 MySQL 第 一 
要 访问 .M 隐 文件 的 时 候 ， 都 会 家 分 配 到 默认 缓冲 区 。 


可 以 通过 SHOW STATUS 和 SHOW VARIABLES 命 令 的 信息 来 监控 键 缓冲 
的 使 用 情况 。 下 面 的 公式 可 以 计算 缓冲 区 的 使 用 率 : 


100 - ( (Key_blocks_unused * key_cache_block_size) * 100 / ke 





如 果 服 务 咒 运行 了 很 长 一 段 时 间 后 ， 还 是 没有 使 用 完 所 有 的 键 绥 
冲 ， 就 可 以 把 缓冲 区 调 小 一 点 。 


键 缓冲 命中 率 有 什么 意义 ? 正如 我 们 之 前 解释 的 那样 ， 这 个 数字 没 
什么 用 。 例 如 ，999% 和 99.9% 之 间 看 起 来 差别 很 小 ， 但 实际 上 代表 了 10 
倍 的 差距 。 缓 存 命中 率 也 是 和 应 用 相关 的 : 有 些 应 用 可 以 在 95% 的 命中 
率 下 工作 良好 ， 但 是 也 有 些 应 用 可 能 是 IO 密集 型 的 ， 必 须 在 99.9% 的 命 
中 率 下 工作 。 甚 至 有 可 能 在 恰当 大 小 的 缓存 设置 下 获得 99.99% 的 命中 
率 。 











从 经 验 上 来 说 ， 每 秒 缓存 未 命中 的 次 数 要 更 有 用 。 假 定 有 一 个 独立 
的 磁盘 ， 每 秒 可 以 做 100 个 随机 读 。 每 秒 5 次 缓存 未 命中 可 能 不 会 导致 
LO 繁忙 ， 但 是 每 秒 80 次 缓存 未 命中 则 可 能 出 现 问题 。 可 以 使 用 下 面 的 
公式 来 计算 这 个 值 : 


Key_reads / Uptime 


通过 间隔 10 一 100 秒 来 计算 这 段 时 间 内 缓存 未 命中 次 数 的 增 量 值 ， 
可 以 获得 当前 性 能 的 情况 。 下 面 的 命令 可 以 每 10 秒 钟 获取 一 次 状态 值 的 
变化 量 : 





$ mysqladmin extended-status -r -i 10 | grey Key_reads 


记 住 ，MyISAM 使 用 操作 系统 绥 存 来 缓存 数据 文件 ， 通 常数 据 文件 
比索 引 要 大 。 因 此 ， 把 更 多 的 内 存 保留 给 操作 系统 缓存 而 不 是 键 缓 存 是 
意义 的 。 即 使 你 有 足够 的 内 存 来 缓存 所 有 索引 ， 并 且 键 缓存 命中 率 很 
低 ， 当 MySQL 尝 试 读 取 数据 文件 时 《〈 不 是 索引 文件 ) ， 在 操作 系统 层 
还 是 可 能 发 生 缓 存 未 命中 ， 这 对 MySQL 完 全 透明 ，MySQL 并 不 能 感知 
到 。 因 此 ， 这 种 情况 下 可 能 会 有 大 量 数据 文件 缓存 未 命中 ， 这 和 索引 的 














键 缓存 未 命中 率 是 完全 不 相关 的 。 


最 后 ， 即 使 没有 任何 MyISAM 表 ， 依 然 需要 将 key_buffer size 设置 


为 较 小 的 值 ， 例 如 32M。MySQL 服 务 器 有 时 会 在 内 部 使 用 MyISAM 表 ， 
例如 GROUP BY 语句 可 能 会 使 用 MyISAM 做 临时 表 。 


MySQL 键 缓存 块 大 小 (Key Block Size) 


块 大 小 也 是 很 重要 的 (尤其 是 写 密集 型 负载 》， 因 为 它 影响 了 


MyYISAM、 操 作 系统 缓存 ， 以 及 文件 系统 之 间 的 交互 。 如 果 绥 存 块 太 小 


Í, 


可 能 会 碰 到 写 时 读 取 Cread-around write) ， 就 是 操作 系统 在 执行 写 


操作 之 前 必须 先 从 磁盘 上 读 取 一 些 数据 。 下 面 说 明 一 下 这 种 情况 是 怎么 
发 生 的 ， 假 设 操作 系统 的 页 大 小 是 4KB 在 x86 染 构 上 通常 部 是 这 
样 ) ， 并 且 索 引 块 大 小 是 1KB: 


1. 
2. 





MyISAM 请 求 从 磁盘 上 读 取 1KB 的 块 。 
操作 系统 从 磁盘 上 读 取 4KB 的 数据 并 缓存 ， 然 后 发 送 需 要 的 1KB 数 
据 给 MyISAM。 


. 操作 系统 丢弃 缓存 数据 以 给 其 他 数据 腾 出 缓存 。 
. MYISAM 修 改 1KB 的 索引 块 ， 然 后 请 求 操 作 系 统 把 它 写 回 磁盘 。 
. 操作 系统 从 磁盘 读 取 同一 个 4KB 的 数据 ， 写 入 操作 系统 缓存 ， 修 改 


MyISAM 改 动 的 这 1KB 数 据 ， 然 后 把 整个 4KB 的 块 写 回 磁盘。 


在 第 5 步 中 ， 当 MyISAM 请 求 操 作 系 统 去 写 4KB 页 的 部 分 内 容 时 ， 


就 发 生 了 写 时 读 取 (read-around write) 。 如 果 MyISAM 的 块 大 小 跟 操 作 
系统 的 相 匹 配 ， 在 第 5 步 的 磁盘 读 就 可 以 避免 LD。 


IRER, MySQL 5.0 以 及 更 早 的 版 本 没有 办 法 配置 索引 块 大 小 。 但 


te, FEMySQL 5.1 以 及 更 新 版 本 中 ， 可 以 设置 MyISAM 的 索引 块 大 小 跟 
操作 系统 一 样 ， 以 避免 写 时 读 取 。myisam_block_size 变 量 控制 着 索引 
块 大 小 。 也 可 以 指定 每 个 索引 的 块 大 小 ， 在 CREATE TABLE 或 者 CREATE 
INDEX 语 句 中 使 用 KEY_BLOCK_S1ZE 选 项 即 可 ， 但 是 因为 同一 个 表 的 所 有 
索引 都 保存 在 同一 个 文件 中 ， 因 此 该 表 所 有 索引 的 块 大 小 都 需要 大 于 或 
者 等 于 操作 系统 的 块 大 小 ， 才 能 避免 由 于 边界 对 齐 导 致 的 写 时 读 取 。 
(例如 ， 阁 同一 个 表 的 两 个 索引 ， 一 个 块 大 小 是 IKB， 另 一 个 是 4KB。 
那么 4KB 的 索引 块 边界 很 可 能 和 操作 系统 的 页 边界 是 不 对 齐 的 ， 这 样 还 
是 会 发 生 写 时 读 取 。) 


8.4.7 ”线程 缓存 


线程 缓存 保存 那些 当前 没有 与 连接 关联 但 是 准备 为 后 面 新 的 连接 服 
务 的 线程 。 当 一 个 新 的 连接 创建 时 ， 如 果 绥 存 中 有 线程 存在 ，MySQL 
从 缓存 中 删除 一 个 线程 ， 并 且 把 它 分 配给 这 个 新 的 连接 。 当 连接 关闭 
时 ， 如 果 线 程 缓存 还 有 空间 的 话 ，MySQL 又 会 把 线程 放 回 缓存 。 如 果 
没有 空间 的 话 ，MySQL 会 销毁 这 个 线程 。 只 要 MySQL 在 缓存 里 还 有 空 
朵 的 线程 ， 它 就 可 以 迅速 地 啊 应 连接 请 求 ， 因 为 这 样 就 不 用 为 每 个 连接 
创建 新 的 线程 。 

















thread_cache_size 变 量 指定 了 MySQL 可 以 保持 在 绥 存 中 的 线程 
数 。 一 般 不 需要 配置 这 个 值 ， 除 非 服务 器 会 有 很 多 连接 请 求 。 要 检查 线 
早 缓存 是 否 足 够 大 ， 可 以 查看 Threads_created 状 态 变 量 。 如 果 我 们 观 
察 到 很 少 有 每 秒 创建 的 新 线程 数 少 于 10 个 的 时 候 ， 通 常 应 该 尝试 保持 线 
旦 缓存 足够 大 ， 但 是 实际 上 经 常 也 可 能 看 到 每 秒 少 于 1 个 新 线程 的 情 
况 。 





一 个 好 的 办 法 是 观察 Threads_connected 变 量 并 且 和 尝试 设 
置 thread_cache_size 足 够 大 以 便 能 处 理 业 务 压力 正 第 的 流动。 例如 ， 
若 Threads_connected 通 党 保持 在 100 一 120， 则 可 以 设置 缓存 大 小 为 
20。 如 果 它 保持 在 500 一 700，200 的 线程 缓存 应 该 足够 大 了 。 可 以 这 样 
WA: 在 700 个 连接 的 时 候 ， 可 能 没有 线程 在 缓存 中 ;在 500 个 连接 的 时 
候 ， 有 200 个 缓存 的 线程 准备 为 负载 再 次 增加 到 700 个 连接 时 使 用 。 











把 线程 缓存 设置 得 非常 大 在 大 部 分 时 候 是 没有 必要 的 ， 但 是 设置 得 
很 小 也 不 能 节省 太 多 内 存 ， 所 以 也 没什么 好 人 处。 每 个 在 线程 缓存 中 的 线 
程 或 者 休眠 状态 的 线程 ， 通 常 使 用 256KB 左 右 的 内 存 。 相 对 于 正在 处 理 
查询 的 线程 来 说 ， 这 个 内 存 不 算 很 大 。 通 常 应 该 保证 线程 缓存 足够 大 ， 
以 避免 Threads_created 频 繁 增 长 。 如 果 这 个 数字 很 大 (例如 ， 几 千 个 
线程 ) ， 可 能 需要 把 thread_cache_size 设 置 得 稍微 小 一 些 ， 因 为 一 些 
操作 系统 不 能 很 好 地 处 理 庞 大 的 线程 数 ， 即 使 其 中 大 部 分 是 休眠 的 。 








8.4.8” 表 绥 存 (Table Cache) 





表 缓 存 和 线程 缓存 的 概念 是 相似 的 ， 但 存储 的 对 象 代表 的 是 表 。 每 
个 在 缓存 中 的 对 象 包含 相关 表 .frm 文 件 的 解析 结果 ， 加 上 一 些 其 他 数 
据 。 准 确 地 说 ， 在 对 象 里 的 其 他 数据 的 内 容 依赖 于 表 的 存储 引擎 。 例 
如 ， 对 MyISAM， 古 表 的 数据 和 索引 的 文件 描述 符 。 对 于 Merge 表 则 可 
能 是 多 个 文件 描述 符 ， 因 为 Merge 表 可 以 有 很 多 的 底层 表 。 




















表 缓 存 可 以 重用 资源 。 举 个 实际 的 例子 ， 当 一 个 查询 请 求 访 问 一 张 
MyISAM#, ”MySQL 也 许可 以 从 缓存 的 对 象 中 获取 到 文件 描述 符 。 尽 
管 这 样 做 可 以 避免 打开 一 个 文件 描述 符 的 开销 ， 但 这 个 开销 其 实 并 不 
大 。 打 开 和 关闭 文件 描述 符 在 本 地 存储 是 很 快 的 ， 服 务 器 可 以 轻松 地 完 


成 每 秒 100 万 次 的 操作 (尽管 这 跟 网 络 存 储 不 同 ) 。 对 MyISAM 表 来 
说 ， 表 缓存 的 真正 好 处 是 ， 可 以 让 服务 器 避免 修改 MyISAM 文 件 头 来 标 
记 表 “正在 使 用 中 ”9。 








表 绥 存 的 设计 是 服务 器 和 存储 引擎 之 间 分 离 不 彻底 的 产物 ， 属 于 历 
史 问 题 。 表 绥 存 对 InnoDB 重 要 性 就 小 多 了 ， 因 为 hnoDB 不 依赖 它 来 做 
那么 多 的 事 〈 例 如 持 有 文件 描述 符 ，InnoDB 有 自己 的 表 绥 人 存 版 本 ) 。 
尽管 如 此 ，InnoDB 也 能 从 缓存 解析 的 .fm 文件 中 获 益 。 








在 MySQL ”5.1 版 本 中 ， 表 绥 存 分 离 成 两 部 分 : 一 个 是 打开 表 的 组 
存 ， 一 个 是 表 和 定义 缓存 (通过 table open cache 和 
table_ defnition_cache 变 量 来 配置 ) 。 其 结果 是 ， 表 定义 (解析 .frm 文 
件 的 结果 ) 从 其 他 资源 中 分 离 出 来 了 了， 例如 表 描 述 符 。 打 开 的 表 依 然 是 
每 个 线程 、 每 个 表 用 的 ， 但 是 表 定 义 是 全 局 的 ， 可 以 被 所 有 连接 有 效 地 
共享 。 通常 可 以 把 table definition cache 设置 得 足够 高 ， 以 缓存 所 有 
的 表 定 义 。 除 非 有 上 万 张 表 ， 人 否则 这 可 能 是 最 简单 的 方法 。 




















如 果 0pened_tables 状 态 变 量 很 大 或 者 在 增长 ， 可 能 是 因为 表 绥 存 
不 够 大 ， 那 么 可 以 人 为 增加 table_cache 系 统 变量 (或 者 是 MySQL 5.1 
中 的 table_open_cache) 。 然 而 ， 当 创建 和 删除 临时 表 时 ， 要 注意 这 个 
计数 器 的 增长 ， 如 果 经 常 需 要 创建 和 删除 临时 表 ， 那 么 该 计数 器 就 会 不 
停 地 增长 。 








把 表 绥 存 设 置 得 非常 大 的 缺点 是 ， 当 服务 器 有 很 多 MyYISAM 表 时 ， 
可 能 会 导致 天 机 时 间 较 长 ， 因 为 关机 前 索 引 块 必须 完成 刷新 ， 表 都 必须 
标记 为 不 再 打开 。 同 样 的 原因 ， 也 可 能 使 FLUSH TABLES WITH READ 
LOCK 操 作 人 花费 很 长 一 段 时 间 。 更 为 严重 的 是 ， 检 查 表 绥 存 算 法 不 是 很 有 
效 ， 稍 后 会 更 详细 地 说 明 。 





如 果 遇 到 MySQL 无 法 打开 更 多 文件 的 错误 《〈 可 以 使 用 perror 工 具 来 
检查 错误 号 代表 的 含义 ) ， 那 么 可 能 需要 增加 MySQL 人 允许 打开 文件 的 
数量 。 这 可 以 通过 在 my.cnf 文 件 中 设置 open_files_limit 服 务 占 变量 来 
实现 。 


线程 和 表 缓 存 实 际 上 用 的 内 存 并 不 多 ， 相 反 却 可 以 有 效 节 约 资 源 。 
虽然 创建 一 个 新 线程 或 者 打开 一 个 新 的 表 ， 相 对 于 其 他 MYSQL 操作 来 
说 代价 并 不 算 高 ， 但 它们 的 开销 是 会 素 加 的 。 所 以 缓存 线程 和 表 有 时 可 
以 提升 效率 。 


8.4.9 InnoDB 数 据 字 典 (Data 
Dictionary ) 





InnoDB 有 自己 的 表 缓存 ， 可 以 称 为 表 定 义 缓存 或 者 数据 字典 ， 在 
目前 的 MySQL 版 本 中 还 不 能 对 它 进 行 配置 。 当 InnoDB 打 开 一 张 表 ， 惑 
增加 了 一 个 对 应 的 对 象 到 数据 字典 。 每 张 表 可 能 占用 4KB 或 者 更 多 的 内 
存 〈 尽 管 在 MySQL 5.1 中 对 空间 的 需求 小 了 很 多 ) 。 当 表 关 闭 的 时 候 也 
不 会 从 数据 字典 中 移 除 它 们 。 


因此 ， 随 着 时 间 的 推移 ， 服 务 器 可 能 出 现 内 存 泄露 ， 导 致 数据 字典 
中 的 元 素 不 断 地 增长 。 但 这 不 是 真 的 内 存 泄 露 ， 只 是 没有 对 数据 字典 实 
现任 何 一 种 缓存 过 期 策略 。 通 常 只 有 当 有 很 多 “〈 数 千 或 数 万 ) 张大 表 时 
才 是 个 问题 。 如 果 这 个 问题 有 影响 ， 可 以 使 用 Percona Server， 有 一 个 选 
项 可 以 控制 数据 字典 的 大 小 ， 它 会 从 数据 字典 中 移 除 没有 使 用 的 表 。 
MySQL 5.6 尚 未 发 布 的 版 本 中 也 有 个 类 似 的 功能 。 

















另 一 个 性 能 问题 是 第 一 次 打开 表 时 会 计算 统计 信息 ， 这 需要 很 多 


IO 操作 ， 所 以 代价 很 高 。 相 比 MyISAM，InnoDB 没 有 将 统计 信息 持久 
化 ， 而 是 在 每 次 打开 表 时 重新 计算 ， 在 打开 之 后 ， 每 隔 一 段 过 期 时 间或 
者 遇 到 触发 事件 《改变 表 的 内 容 或 者 得 询 INFORMAT10N_SCHEMA 表 ， 等 
等 ) ， 也 会 重新 计算 统计 信息 。 如 果 有 很 多 表 ， 服 务 器 可 能 会 花费 数 个 
小 时 来 启动 并 完全 预 热 ， 在 这 个 时 候 服 务 器 可 能 花费 更 多 的 时 间 在 等 待 
1/O 操 作 ， 而 不 是 做 其 他 事 。 可 以 在 Percona Server (在 MySQL 5.6 中 也 可 
以 ， 但 是 叫做 innodb analyze is persistent) 中 打 

开 innodb_use_sys_stats_table 选 项 来 持久 化 存储 统计 信息 到 磁盘 ， 以 
解决 这 个 问题 。 








即使 在 局 动 之 后 ，InnoDB 统 计 操 作 还 可 能 对 服务 器 和 一 些 特定 的 
查询 产生 冲击 。 可 以 关闭 innodb stats on metadatat T A WE e FERT HS 
表 统 计 信息 刷新 。 当 例如 IDE 这 样 的 工具 执行 INFORMAT1ION_SCHEMA 表 的 
查询 时 ， 关 闭 这 个 选项 后 的 表现 是 很 不 一 样 的 (当然 是 快 了 不 少 ) 。 





如 果 设 置 了 InnoDB 的 innodb_file_per_table 选 项 (后面 会 描 
述 ) ，InnoDB 任 意 时 刻 可 以 保持 打开 .ibd 文 件 的 数量 也 是 有 其 限制 的 。 
这 由 InnoDB 存 储 引 擎 负责 ， 而 不 是 MySQL 服 务 器 管理 ， 并 且 
由 innodb_open_files 来 控制 。InnoDB 打 开 文 件 和 MyISAM 的 方式 不 一 
样 ，MyISAM 用 表 绥 存 来 持 有 打开 表 的 文件 描述 符 ， 而 InnoDB 在 打开 表 
和 打开 文件 之 间 没 有 直接 的 关系 。InnoDB 为 每 个 .ibd 文 件 使 用 单个 、 全 
局 的 文件 描述 符 。 如 果 可 以 ， 最 好 把 innodb_open_files 的 值 设 置 得 足 
够 大 以 使 服务 器 可 以 保持 所 有 的 .ibd 文 件 同时 打开 。 











8.5 配置 MySQEL 的 IO 行为 


有 一 些 配置 项 影响 着 MySQL 怎 样 同步 数据 到 磁盘 以 及 如 何 做 恢复 
操作 。 这 些 操作 对 性 能 的 影响 非常 大 ， 因 为 都 涉及 到 昂 贯 的 IO 操作 。 
它们 也 表现 了 性 能 和 数据 安全 之 间 的 权衡 。 通 常 ， 保 证 数据 立刻 并 且 一 
致 地 写 到 磁盘 是 很 郧 贯 的 。 如 宁 能 够 骨 一 点 磁盘 写 可 能 没有 真正 持久 化 
到 磁盘 的 风险 ， 就 可 以 增加 并 发 性 和 减少 IO 等 待 ， 但 是 必须 决定 可 以 
容 妨 多 大 的 风险 。 





8.5.1 InnoDB LO 配置 





InnoDB 不 仅 允 许 控 制 怎 么 恢复 ， 还 允许 控制 怎么 打开 和 刷新 数据 
《文件 ) ， 这 会 对 恢复 和 整体 性 能 产生 巨大 的 影响 。 尽 管 可 以 影响 它 的 
行为 ，InnoDB 的 恢复 流程 实际 上 是 自动 的 ， 并 且 经 常 在 InnoDB 局 动 时 
运行 。 撒 开 恢 复 并 假设 InnoDB 没 有 月 尝 或 者 出 错 ， InnoDB 依 然 有 很 多 
需要 配置 的 地 方 。 它 有 一 系列 复杂 的 绥 存 和 文件 设计 可 以 提升 性 能 ， 以 
及 保证 ACID 特性 ， 并 且 每 一 部 分 都 是 可 配置 的 ， 图 8-1 曾 述 了 这 些 文 件 
和 缓存 。 








对 于 常见 的 应 用 ， 最 重要 的 一 小 部 分 内 容 是 InnoDB 日 志文 件 大 
小 、InnoDB 怎 样 刷 新 它 的 日 志 绥 冲 ， 以 及 InnoDB 怎 样 执行 IO。 





Buffer pool Log buffer 


Innodb VO £233 


Doublewrite 数据 、 索 引 、 
SoSo A GE o A 
文件 天 et zel zeil zt 文件 


图 8-1: lnnoDB 的 缓存 和 文件 














InnoDB 事 务 日 志 





InnoDB 使 用 日 志 来 减少 提交 事务 时 的 开销 。 因 为 日 志 中 已 经 记录 
了 事务 ， 就 无 须 在 每 个 事务 提交 时 把 缓冲 池 的 脏 块 刷新 flush) 到 磁盘 
中 。 事 务 修改 的 数据 和 索引 通常 会 映射 到 表 空 间 的 随机 位 置 ， 所 以 刷新 
这 些 变更 到 磁盘 需要 很 多 随机 IO。InnoDB 假 设 使 用 的 是 常规 磁盘 OAL 
械 磁盘 〉， 随 机 WO 比 顺序 VO 要 昂贵 得 多 ， 因 为 一 个 1/O 请 求 需要 时 间 把 
磁头 移 到 正确 的 位 置 ， 然 后 等 待 磁盘 上 读 出 需要 的 部 分 ， 再 转 到 开始 位 
置 。 








InnoDB 用 日 志 把 随机 IO 变 成 顺序 IO。 一 旦 日 志 安 全 写 到 磁盘 ， 事 
务 就 持久 化 了 ， 即 使 变更 还 没 写 到 数据 文件 。 如 果 一 些 糟糕 的 事情 发 生 
了 【例如 断 电 了 ) ，InnoDB 可 以 重 放 日 志 并 且 恢 复 已 经 提交 的 事务 。 


当然 ，InnoDB 最 后 还 是 必须 把 变更 写 到 数据 文件 ， 因 为 日 志 有 固 


定 的 大 小 。InnoDB 的 日 志 古 环形 方式 写 的 ， 当 写 到 日 志 的 尾部 ， 会 重 
新 跳 转 到 开头 继续 写 ， 但 不 会 履 兰 还 没 应 用 到 数据 文件 的 日 志 记 录 ， 因 
为 这 样 做 会 清 挥 已 提交 事务 的 唯一 持久 化 记录 。 








InnoDB 使 用 一 个 后 台 线 程 智能 地 刷新 这 些 变更 到 数据 文件 。 这 个 
线程 可 以 批量 组 合 写 入 ， 使 得 数据 写 入 更 顺序 ， 以 提高 效率 。 实 际 上 ， 
事务 日 志 把 数据 文件 的 随机 IO 转换 为 几乎 顺序 的 日 志文 件 和 数据 文件 
WO。 把 刷新 操作 转移 到 后 台 使 查询 可 以 更 快 完成 ， 并 且 绥 和 查询 高 峰 
时 W/O 系统 的 压力 。 








整体 的 日 志文 件 大 小 受 控 于 innodb_ log file size 
innodb_log files_in_group 两 个 参数 ， 这 对 写 性 能 非常 重要 。 日 志文 
件 的 总 大 小 是 每 个 文件 的 大 小 之 和 。 默 认 情 况 下 ， 只 有 两 个 5MB 的 文 
件 ， 总 共 10MB。 对 高 性 能 工作 来 说 这 太 小 了 。 至 少 需要 几 百 MB， 或 者 
甚至 上 GB 的 日 志文 件 。 














InnoDB 使 用 多 个 文件 作为 一 组 循环 日 志 。 通 常 不 需要 修改 默认 的 
日 志 数 量 ， 只 修改 每 个 日 志文 件 的 大 小 即 可 。 要 修改 日 志文 件 大 小 ， 需 
要 完全 关闭 MySQL， 将 旧 的 日 志文 件 移 到 其 他 地 方 保存 ， 重 新 配置 参 
数 ， 然 后 重启 。 一 定 要 确保 MySQL 干 净 地 关闭 了 ， 或 者 还 有 日 志文 件 
可 以 保证 怖 要 应 用 到 数据 文件 的 事务 记录 ， 人 否则 数据 库 就 无 法 恢复 了 ! 
当 重 启 服务 器 的 时 候 ， 查 看 MySQL 的 错误 日 志 。 在 重启 成 功 之 后 ， 才 
可 以 删除 旧 的 日 志文 件 。 











日 志文 件 大 小 和 日 志 缓 存 。 要 确定 理想 的 日 志文 件 大 小 ， 必 须 权衡 
正常 数据 变更 的 开销 和 衣 演 恢复 需要 的 时 间 。 如 末日 志 太 小 ，InnoDB 
将 必须 做 更 多 的 检查 点 ， 导 致 更 多 的 日 志 写 。 在 极 个 别 情况 下 ， 写 语句 
可 能 被 拖累 ， 在 日 志 没 有 空间 继续 写 入 前 ， 必 须 等 待 变更 被 应 用 到 数据 











文件 。 男 一 方面 ， 如 果 日 志 太 大 了 ， 在 骨 尝 恢复 时 InnoDB 可 能 不 得 不 
做 大 量 的 工作 。 这 可 能 极 大 地 增加 恢复 时 间 ， 尽 管 这 个 处 理 在 新 的 
MySQL 版 本 中 已 经 改善 很 多 。 





数据 大 小 和 访问 模式 也 将 影响 恢复 时 间 。 假 设 有 一 个 1TB 的 数据 和 
16GB 的 缓冲 池 ， 并 且 全 部 日 志 大 小 是 128MB。 如 果 绥 冲 池 里 有 很 多 脏 
页 〈 例 如， 页 被 修改 了 还 没 被 刷 写 回 数据 文件 ) ， 并 且 它 们 均匀 地 分 布 
在 1TB 数 据 中 ， 骨 演 后 恢复 将 需要 相当 长 一 段 时 间 。InnoDB 必 须 从 头 到 
尾 扫 描 日 志 ， 仔 细 检 查 数 据 文件 ， 如 果 需 要 还 要 应 用 变更 到 数据 文件 。 
这 是 很 庞大 的 读 写 操作 ! 另 一 方面 ， 如 果 变 更 是 局 部 性 的 一 一 就 是 说 ， 
如 果 只 有 几 百 MB 数据 被 频 索 地 变更 一 一 恢复 可 能 束 很 快 ， 即 使 数据 和 
日 志文 件 很 大 。 人 恢复 时 间 也 依赖 于 普通 修改 操作 的 大 小 ， 这 中 数据 行 的 
平均 长 度 有 关系 。 较 短 的 行使 得 更 多 的 修改 可 以 放 在 同样 的 日 志 中 ， 所 
以 InnoDB 可 能 必须 在 恢复 时 重 放 更 多 修改 操作 03。 














当 InnoDB 变 更 任何 数据 时 ， 会 写 一 条 变更 记录 到 内 存 日 志 绥 冲 
区 。 在 缓冲 满 的 时 候 、 事 务 提交 的 时 候 ， 或 者 每 一 秒 钟 ，InnoDB 都 会 
刷 写 缓冲 区 的 内 容 到 磁盘 日 志文 件 一 一 无 论 上 述 三 个 条 件 哪个 先 达到 。 
如 果 有 大 事务 ， 增 加 日 志 绥 冲 区 默认 IMB〉 大 小 可 以 帮助 减少 WO。 
变量 innodb log buffer size 可 以 控制 日 志 绥 冲 区 的 大 小 。 





通常 不 需要 把 日 志 绥 冲 区 设置 得 非常 大 。 推 荐 的 范围 是 1MB~ 
8MB, 一 般 来 说 足够 了 ， 除 非 要 写 很 多 相当 大 的 BLOB 记 录 。 相 对 于 
InnoDB 的 普通 数据 ， 日 志 条 目 是 非常 紧 竣 的 。 它 们 不 是 基于 页 的 ， 所 
以 不 会 浪费 空间 来 一 次 存储 整个 页 。InnoDB 也 使 得 日 志 条 目 尽 可 能 地 
短 。 有 时 甚至 会 保存 为 函数 号 和 C 函 数 的 参数 ! 














较 大 的 日 志 缓 冲 区 在 菏 些 情况 下 也 是 有 好 处 的 ， 可 以 减少 缓冲 区 中 


空间 分 配 的 争 用 。 当 配置 一 台 有 大 内 存 的 服务 器 时 ， 有 时 简单 地 分 配 
32MB~~128MB 的 日 志 缓 冲 ， 因 为 花费 这 么 点 相对 ( 整 机 〉 而 言 比较 小 
的 内 存 并 没有 什么 不 好 ， 还 可 以 帮助 避免 压力 瓶颈 。 如 果 有 问题 ， 瓶 颈 
一 般 会 表现 为 日 志 组 冲 Mutex 的 竞争 。 


可 以 通过 检查 SHOW INNODB ”STATUS 的 输出 中 LOG 部 分 来 监控 
InnoDB 的 日 志和 日 志 绥 冲 区 的 VO 性 能 ， 通 过 观察 
Innodb os log written 状 态 变 量 来 查看 InnoDB 对 日 志文 件 写 出 了 多 少 
数据 。 一 个 好 用 的 经 验 法 则 是 ， 碍 看 10 一 100 秒 间隔 的 数字 ， 然 后 记录 
峰值 。 可 以 用 这 个 来 判断 日 志 缓冲 是 否 设置 得 正好 。 例 如 ， 知 看 到 峰值 
是 每 秒 写 100KB 数 据 到 日 志 ， 那 么 LIMB 的 日 志 组 冲 可 能 足够 了 。 也 可 以 
使 用 这 个 衡量 标准 来 决定 日 志文 件 设置 多 大 会 比较 好 。 如 果 峰 值 是 
100KB/s， 那 么 256MB 的 日 志文 件 足 够 存储 至 少 2 560 秒 的 日 志 记 录 。 这 
看 起 来 足够 了 。 作 为 一 个 经 验 法 则 ， 日 志文 件 的 全 部 大 小 ， 应 该 足够 容 
纳 服 务 器 一 个 小 时 的 活动 内 容 。 














InnoDB 怎 样 刷 新 日 志 绥 冲 。 当 InnoDB 把 日 志 绥 冲刷 新 到 倒 盘 日 志 
文件 时 ， 先 会 使 用 一 个 Mutex 锁 住 缓冲 区 ， 刷 新 到 所 需要 的 位 置 ， 然 后 
移动 剩 下 的 条 目 到 绥 冲 区 的 前 面 。 当 Mnutex 释 放 时 ， 可 能 有 超过 一 个 事 
务 已 经 准备 好 刷新 其 日 志 记 录 。InnoDB 有 一 个 Group ”Commit 功 能 ， 可 
以 在 一 个 IO 操作 内 提交 多 个 事务 ， 但 是 在 MySQL 5.0 中 当 打 开 二 进 制 日 
志 时 这 个 功能 就 不 能 用 了 。 我 们 在 前 一 章 写 了 一 些 关 于 Group Commit 的 
东西 。 





日 志 缓 冲 必须 被 刷新 到 持久 化 存储 ， 以 确保 提交 的 事务 完全 被 持久 
化 了 。 如 果 和 持久 相 比 更 在 乎 性 能 ， 可 以 修 
改 innodb_flush_log_at_trx_commit 变 量 来 控制 日 志 绥 冲刷 新 的 频繁 程 
度 。 可 能 的 设置 如 下 : 


把 日 志 缓 冲 写 到 日 志文 件 ， 并 且 每 秒 钟 刷新 一 次 ， 但 是 事务 提 
交 时 不 做 任何 事 。 





将 日 志 绥 冲 写 到 日 志文 件 ， 并 且 每 次 事务 提交 都 刷新 到 持久 化 
存储 。 这 是 默认 的 “并 且 是 最 安全 的 ) 设置 ， 该 设置 能 保证 不 会 丢 
失 任 何 已 经 提 和 区 的 事务 ， 除 非 磁盘 或 者 操作 系统 是 “ 伪 ?” 刷 新 。 





每 次 提交 时 把 日 志 绥 冲 写 到 日 志文 件 ， 但 是 并 不 刷新 。 
InnoDB 每 秒 钟 做 一 次 刷新 。0 与 2 最 重要 的 不 同 是 〈 也 是 为 什么 2 是 
合适 的 设置 ) ， 如 果 MySQL 进 程 “ 挂 了 ”， 2 不 会 丢失 任何 事务 。 
如 果 整 个 服务 器 “ 挂 了 ”或 者 断 电 了 ， 则 还 是 可 能 会 丢失 一 些 事务 。 

















了 解 清楚 “把 日 志 绥 冲 写 到 日 志文 件 * 和 “把 日 志 刷 新 到 持久 化 存 





储 ” 之 间 的 不 同 是 很 重要 的 。 在 大 部 分 操作 系统 中 ， 把 缓冲 写 到 日 志 只 
是 简单 地 把 数据 从 InnoDB 的 内 存 缓冲 转移 到 了 操作 系统 的 缓存 ， 也 是 
在 内 存 里 ， 并 没有 真 的 把 数据 写 到 了 持久 化 存储 。 


因此 ， 如 果 MySQL 崩 沉 了 或 者 电源 断 电 了 了， 设置 Oo 和 2 通常 会 导致 


最 多 一 秒 的 数据 丢失 ， 因 为 数据 可 能 只 存在 于 操作 系统 的 缓存 。 我 们 
说 “ 通 钊 ?”， 因 为 不 论 如 何 InnoDB 会 每 秒 演 试 刷新 日 志文 件 到 磁盘 ， 但 是 
在 一 些 场景 下 也 可 能 丢失 超过 1 秒 的 事务 ， 例 如 当 刷 新 被 推迟 了 。 


与 此 相反 ， 把 日 志 刷 新 到 持久 化 存储 意味 着 InnoDB 请 求 操作 系统 


FEATHER Mil AE, FFAS BE T. KES BASEVOM VA, Eb 
到 数据 被 完全 写 回 才 会 完成 。 因 为 写 数据 到 磁盘 比较 慢 ， 

当 innodb flush log at trx_commit 被 设置 为 1 时 ， 可 能 明显 地 降低 
InnoDB 每 秒 可 以 提交 的 事务 数 。 今 天 的 高 速 驱 动 器 4 可 能 每 秒 只 能 执 
行 一 两 百 个 磁盘 事务 ， 受 限于 磁盘 旋转 速度 和 寻 道 时 间 。 








有 时 人 硬盘 控制 器 或 者 操作 系统 假装 做 了 刷新 ， 其 实 只 是 把 数据 放 到 
了 男 一 个 缓存 ， 例 如 磁盘 自己 的 缓存 。 这 更 快 但 是 很 危险 ， 因 为 如 果 驱 
动 器 断 电 ， 数 据 依 然 可 能 丢失 。 这 甚至 比 设 
置 innodb_flush_log_at_trx_commit 为 不 为 1 的 值 更 糟糕 ， 因 为 这 可 能 
导致 数据 损坏 ， 不 仅仅 是 丢失 事务 。 


设置 innodb flush log at _ trx_commit 为 不 为 1 的 值 可 能 导致 于 失 
事务 。 然 而 ， 如 果 不 在 意 持久 性 (ACID 中 的 D) ， 那 么 设置 为 其 他 的 值 
也 是 有 用 的 。 也 许 你 只 是 想 拥 有 InnoDB 的 其 他 一 些 功能 ， 例 如 聚 簇 索 
引 、 防 止 数据 损坏 ， 以 及 行 锁 。 但 仅仅 因为 性 能 原因 用 InnoDB 蔡 换 
MyISAM 的 情况 也 并 不 少见 。 





高 性 能 事务 处 理 需 要 的 最 佳 配置 是 把 
innodb flush_log at _trx_commit 设 置 为 1 且 把 日 志文 件 放 到 一 个 有 电 
池 保 护 的 写 缓存 的 RAID 卷 中 。 这 兼顾 了 安全 和 速度 。 事 实 上 ， 我 们 敢 
说 任何 希望 能 拉 过 高 负荷 工作 负载 的 产品 数据 库 服 务 器 ， 都 需要 有 这 种 
类 型 的 硬件 。 





Percona Server 扩展 了 innodb fush log at trx comit¢Ẹ®, (#7 
它 成 为 一 个 会 话 级 变量 ， 而 不 是 一 个 全 局 变量 。 这 人 允许 有 不 同 的 性 能 和 
持久 化 要 求 的 应 用 ， 可 以 使 用 同样 的 数据 库 ， 同 时 又 避免 了 标准 
MySQL 提 供 的 一 思 切 的 解决 方案 。 





InnoDB 怎 样 打开 和 刷新 日 志 以 及 数据 文件 


使 用 innodb_fush_method 选 项 可 以 配置 mnoDB 如 何 跟 文 件 系 统 相 
互 作 用 。 从 名 字 来 看 ， 会 以 为 只 能 影响 mnoDB 怎 么 写 数据 ， 实 际 上 还 
影响 了 InnoDB 怎 么 读数 据 。Windows 和 非 windows 的 操作 系统 对 这 个 选 
项 的 值 是 互 斥 的 : async_unbuffered、unbuffered 和 normal 只 能 在 
Windows 下 使 用 ， 并 且 Windows 下 不 能 使 用 其 他 的 值 。 在 Windows 下 默 
认 值 是 unbuffered， 其 他 操作 系统 都 是 fdatasync。 (如 果 SHOW GLOBAL 
VARIABLES 显 示 这 个 变量 为 空 ， 意 味 着 它 被 设置 为 默认 值 了 。) 


























一 人 以- InnoDB 执 行 IO 操 作 的 方式 可 以 显著 地 影响 性 能 ， 所 以 请 确认 你 明白 了 在 做 








什么 后 再 去 做 改动 ! 





这 是 个 有 斥 难 以 理解 的 选项 ， 因 为 它 既 影响 日 志文 件 ， 也 影响 数据 
文件 ， 而 且 有 时 候 对 不 同类 型 的 文件 的 处 理 也 不 一 样 。 如 果 有 一 个 选项 
来 配置 日 志 ， 男 一 个 选项 来 配置 数据 文件 ， 这 样 最 好 了 了， 但 实际 上 它们 
混合 在 同一 个 配置 项 中 。 





下 面 是 一 些 可 能 的 值 : 
fdatasync 


这 在 非 Windows 系 统 上 是 默认 值 : InnoDB 用 fsync () 来 刷新 数 
据 和 日 志文 件 。 


InnoDB 通 常用 fsync () 代 蔡 fdatasync () ， 即 使 这 个 值 似乎 表 
达 的 是 相反 的 意思 。fdatasync () 跟 fsync () 相似 ， 但 是 只 刷新 文件 
的 数据 ， 而 不 包括 元 数据 (最 后 修改 时 间 ， 等 等 ) 。 


此 ，fsync () 会 导致 更 多 的 IO。 然 而 mmnnoDB 的 开发 者 都 很 保守 ， 他 
们 发 现 某 些 场景 下 fdatasync 0 〇 会 导致 数据 损坏 。InnoDB 决 定 了 哪 
些 方法 可 以 更 安全 地 使 用 ， 有 一 些 是 编译 时 设置 的 ， 也 有 一 些 是 运 
行 时 设置 的 。 它 使 用 尽 可 能 最 快 的 安全 方法 。 








使 用 fsync 0 的 缺点 是 操作 系统 至 少 会 在 自己 的 绥 存 中 绥 剖 一 
些 数据 。 理 论 上 ， 这 种 双重 缓冲 是 浪费 的 ， 因 为 InnoDB 省 理 自 己 
的 缓冲 比 操作 系统 能 做 的 更 加 智能 。 然 而 ， 最 后 的 影响 跟 操作 系统 
和 文件 系统 非常 相关 。 如 果 能 让 文件 系统 做 更 智能 的 IO 调度 和 批 
量 操作 ， 双 重 绥 冲 可 能 并 不 是 坏事 。 有 的 文件 系统 和 操作 系统 可 以 
贞 昧 写 操 作 后 合并 执行 ， 通 过 对 IO 重新 排序 来 提升 效率 ， 或 者 并 
发 写 入 多 个 设备 。 它 们 也 可 能 做 预 读 优 化 ， 例 如 ， 夺 连续 请 求 了 几 
个 顺序 的 块 ， 它 会 通知 硬盘 预 读 下 一 个 块 。 


有 了 时 这 些 优 化 有 帮助 ， 有 时 没有 。 如 果 你 好 奇 你 的 系统 中 的 
fsync 0 会 做 哪些 具体 的 事 ， 可 以 阅读 系统 的 帮助 手册 ， 看 
下 fsync (2) 。 


innodb_file per_table 选 项 会 导致 每 个 文件 独立 地 
做 fsync () ， 这 意味 着 写 多 个 表 不 能 合并 到 一 个 IO 操作 。 这 可 能 导 
致 InnoDB 执 行 更 多 的 fsync () 操作 。 





O_DIRECT 


InnoDB 对 数据 文件 使 用 0_DIRECT 标 记 或 directio () 函数 ， 这 
依赖 于 操作 系统 。 这 个 设置 并 不 影响 日 志文 件 并 且 不 是 在 所 有 的 类 
UNIX 系 统 上 都 有 效 。 但 至 少 GNU/Linux、FreeBSD， 以 及 
Solaris 〈5.0 以 后 的 新 版 本 ) 是 支持 的 。 不 像 0_DSYNC 标 记 ， 它 同时 





会 影响 读 和 写 。 


这 个 设置 依然 使 用 fsync 0 来 刷新 文件 到 磁盘 ， 但 是 会 通知 操 
作 系 统 不 要 缓存 数据 ， 也 不 要 用 预 恋 。 这 个 选项 完全 关闭 了 操作 系 
统 缓存 ， 并 且 使 所 有 的 读 和 写 都 直接 通过 存储 设备 ， 避 免 了 双重 组 
冲 。 





在 大 部 分 系统 上 ， 这 个 实现 用 fcnt1 () 调用 来 设置 文件 描述 符 
的 0_DIRECT 标 记 ， 所 以 可 以 阅读 fcnt1 (2) 的 手册 页 来 了 解 系 统 上 这 
个 函数 的 细节 。 在 Solaris 系 统 ， 这 个 选项 用 directio()。 


如 果 RAID 卡 支持 预 读 ， 这 个 设置 不 会 关闭 RAID 卡 的 预 读 03。 
这 个 设置 只 能 关闭 操作 系统 和 文件 系统 的 预 读 。 


如 果 使 用 0_DI1RECT 选 项 ， 通 常 需要 带 有 写 缓存 的 RAID 卡 ， 并 
且 设置 为 Write-Back 策 略 49， 因 为 这 是 典型 的 唯一 能 保持 好 性 能 的 
方法 。 当 InnoDB 和 实际 存储 设备 之 间 没 有 绥 冲 时 使 用 0_D1RECT， 
例如 当 RAID 卡 没有 写 缓存 时 ， 可 能 导致 严重 的 性 能 下 降 。 现 在 有 
了 多 个 写 线程 ， 这 个 问题 稍微 小 一 点 〈 并 且 MySQL 5.5 提 供 了 原生 
异步 JO) ， 但 是 通常 还 是 有 问题 。 











这 个 选项 可 能 导致 服务 器 预 热 时 间 变 长 ， 特 别 是 操作 系统 的 组 
存 很 大 的 时 候 。 也 可 能 导致 小 容量 的 缓冲 池 【 例 如 ， 默 认 大 小 的 组 
冲 池 ) 比 缓冲 IO (Buffered IO ) 方式 操作 要 慢 的 多 。 这 是 因为 操作 
系统 不 会 通过 保持 更 多 数据 在 自己 的 缓存 中 来 “帮助 "(提升 性 
能 ) 。 如 果 需 要 的 数据 不 在 缓冲 池 ，InnoDB 将 不 得 不 直接 从 磁盘 
读 取 。 











这 个 选项 不 会 对 innodb_file_per_table 产 生 任何 额外 的 损 


失 。 相 反 ， 如 果 不 用 innodb file _per_table, ~4{% HO DIRECT 
时 ， 可 能 由 于 一 些 顺序 IO 而 让 受 性 能 损失 。 这 种 情况 的 发 生 是 因 
为 一 些 文件 系统 〈 包 括 Linuxz 所 有 的 ext 文 件 系 统 ) 每 个 inode 有 一 个 
Mutex。 当 在 这 些 文 件 系统 上 使 用 O_DIRECT 时 ， 确 实 需要 打 

开 innodb_ file_per_table。 我 们 下 一 章 会 更 深入 地 探究 文件 系 
统 。 





ALL_O_DIRECT 


这 个 选项 在 Percona Server 和 MariaDB 中 可 用 。 它 使 得 服务 器 在 
打开 日 志文 件 时 ， 也 能 使 用 标准 MySQL 中 打开 数据 文件 的 方式 
(O DIRECT) 。 


O_DSYNC 


这 个 选项 使 日 志文 件 调用 open () 函数 时 设置 0_SYNC 标 记 。 它 使 
得 所 有 的 写 同 步 一 一 换个 说 法 ， 只 有 数据 写 到 磁盘 后 写 操作 才 返 
回 。 这 个 选项 不 影响 数据 文件 。 





0_SYNC 标 记 和 0_D1RECT 标 记 的 不 同 之 处 在 于 0_SYNC 没 有 禁用 操 
作 系 统 层 的 缓存 。 因 此 ， 它 没有 避免 双重 缓冲 ， 并 且 它 没有 使 写 操 
作 直 接 操 作 到 磁盘 。 用 了 0_SYNC 标 记 ， 在 缓存 中 写 数据 ， 然 后 发 送 
到 磁盘 。 





使 用 0_SYNC 标 记 做 同步 写 操作 ， 听 起 来 可 能 跟 fsync O 做 的 事 
情 非常 相似 ， 但 是 它们 两 个 的 实现 无 论 在 操作 系统 层 还 是 在 人 硬件 层 
都 非常 不 同 。 用 了 0_SYNC 标 记 后 ， 操 作 系 统 可 能 把 “使 用 同步 
LO” 标 记 下 传 给 人 硬件 层 ， 告 诉 设备 不 要 使 用 缓存 。 为 一 方 





面 ，fsync 0 告诉 操作 系统 把 修改 过 的 缓冲 数据 刷 写 到 设备 上 ， 如 
果 设 备 文 持 ， 紧 接着 会 传递 一 个 指令 给 设备 刷新 它 自己 的 缓存 ， 所 
以 ， 毫 无 疑问 ， 数 据 肯定 记录 在 了 物理 媒介 上 。 另 一 个 不 同 是 ， 用 
了 0 _SYNC 的 话 ， 每 个 wr ite () 或 pwrite () 操作 都 会 在 函数 完成 之 前 
把 数据 同步 到 磁盘 ， 完 成 前 函数 调用 是 阻塞 的 。 相 对 来 看 ， 不 

用 0_SYNC 标 记 的 写 入 调用 fsync () 允许 写 操作 积累 在 缓存 〈 使 得 每 
个 写 更 快 ) ， 然 后 一 次 性 刷新 所 有 的 数据 。 


再 一 次 吐槽 下 这 个 名 称 ， 这 个 选项 设置 0_SYNC 标 记 ， 不 
是 0_DSYNC 标 记 ， 因 为 InnoDB 开 发 者 发 现 了 0_DSYNC 的 Bug。0_SYNC 
和 0_DSYNC 类 似 于 fysnc () 和 fdatasync () : 0_SYNC 同 时 同步 数据 和 
元 数据 ， 但 是 0_DSYNC 只 同步 数据 。 


async_unbuffered 


这 是 Windows 下 的 默认 值 。 这 个 选项 让 InnoDB 对 大 部 分 写 使 用 
没有 缓冲 的 IO; 例外 是 当 innodb flush_log at trx_commit 设 置 
为 2 的 时 候 ， 对 日 志文 件 使 用 缓冲 LO。 





这 个 选项 使 得 InnoDB 在 Windows 2000、XP， 以 及 更 新 版 本 中 
对 数据 读 写 都 使 用 操作 系统 的 原生 异步 ( 重 吴 的 ) WO。 在 更 老 的 
Windows 版 本 中 ，InnoDB 使 用 自己 用 多 线程 模拟 的 异步 1/O。 


unbuffered 


只 对 Windows 有 效 。 这 个 选项 与 async_unbuffered 类 似 ， 但 是 
不 使 用 原生 异步 IO。 


norma l 





只 对 Windows 有 效 。 这 个 选项 让 InnoDB 不 要 使 用 原生 异步 IO 
或 者 无 缓冲 IO。 


Nosync 和 1 ittlesync 





只 为 开发 使 用 。 这 两 个 选项 在 文档 中 没有 并 且 对 生产 环境 来 说 
不 安全 ， 不 应 该 使 用 这 个 。 





如 果 这 些 看 起 来 像 是 一 堆 不 带 建 议 的 说 明 ， 那 么 下 面 是 一 些 建议 : 
如 果 使 用 类 UNIX 操 作 系 统 并 且 RAID 控 制 器 带 有 电池 保护 的 写 缓存 ， 我 
们 建议 使 用 0_DIRECT。 如 果 不 是 这 样 ， 默 认 值 或 者 0_DI1RECT 都 可 能 是 最 
好 的 选择 ， 具 体 要 看 应 用 类 型 。 


InnoDB 表 空间 


InnoDB 把 数据 保存 在 表 空 间 内 ， 本 质 上 是 一 个 由 一 个 或 多 个 人 磁盘 
文件 组 成 的 虚拟 文件 系统 。InnoDB 用 表 空 间 实现 很 多 功能 ， 并 不 只 是 
存储 表 和 索引 。 它 还 保存 了 回 深 日 志 (| 旧 版 本 行 )、 Sees 
Buffer) 、 双 写 缓冲 (Doublewrite Buffer， 后 面 的 章节 里 就 会 描述 〉， 
以 及 其 他 内 部 数据 结构 。 




















MER? #3 间 。 通 过 innodb data file path 配 置 项 可 以 定制 表 空 间 
文件 。 这 些 文件 都 放 在 innodb_data_home_dir 指 定 的 目录 下 。 这 是 一 个 
例子 : 


innodb_data_home_dir = /var/lib/mysql/ 





innodb_data_file_path = ibdata1:1G;ibdata2:1G;ibdata3:1G 





这 里 在 三 个 文件 中 创建 了 3GB 的 表 空 间 。 有 时 人 们 并 不 清楚 可 以 使 
用 多 个 文件 分 散 驱 动 器 的 负载 ， 像 这 样 : 


innodb_data_file_path = /diski/ibdata1:1G;/disk2/ibdata2:1G;. 





在 这 个 例子 中 ， 表 空间 文件 确实 放 在 代表 不 同 驱 动 器 的 不 同 目录 
中 ，InnoDB 把 这 些 文件 首尾 相连 组 合 起 来 。 因 此 ， 通 常 这 种 方式 并 不 
能 获得 太 多 收益 。InnoDB 先 填 满 第 一 个 文件 ， 当 第 一 个 文件 满 了 再 用 
第 二 个 ， 如 此 循环 ， 负 载 并 没有 真 的 按照 希望 的 高 性 能 方式 分 布 。 用 
RAID 控 制 句 是 分 布 负 载 更 聪明 的 方式 。 





为 了 允许 表 空 间 在 超过 了 分 配 的 空间 时 还 能 增长 ， 可 以 像 这 样 配置 
最 后 一 个 文件 自动 扩展 : 





...ibdata3:1G:autoextend 


默认 的 行为 是 创建 单个 LOMB 的 自动 扩展 文件 。 如 果 让 文件 可 以 自 
动 扩 展 ， 那 么 最 好 给 表 空 间 大 小 设置 一 个 上 限 ， 别 让 它 扩展 得 太 大 ， 因 
为 一 旦 扩展 了 ， 就 不 能 收缩 回来 。 例 如 ， 下 面 的 例子 限制 了 自动 扩展 文 
件 最 多 到 2GB: 





..,ibdata3:1G:autoextend:max:2G 








EHEAR 2 Te] AY EA RIL, Ce OR he AN RR 
的 ， 并 且 和 希望 回收 空间 时 《因为 这 个 原因 ， 我 们 建议 关闭 上 自动 扩展 功 
能 ， 至 少 设置 一 个 合理 的 空间 范围 ) 。 回 收 空间 唯一 的 方式 是 导出 数 
据 ， 关 闭 MySQL， 删 除 押 有 文件 ， 修 改 配置 ， 重 局， 让 InnoDB 创 建新 
的 数据 文件 ， 然 后 导入 数据 。InnoDB 这 种 表 空 间 管 理 方式 很 让 人 头疼 
不 能 简单 地 删除 文件 或 者 改变 大 小 。 如 有 果 表 空间 损坏 了 ，InnoDB 











会 拒绝 局 动 。 对 日 志文 件 也 一 样 的 严格 。 如 果 像 MyISAM 一 样 随 便 移动 
文件 ， 千 万 要 谨慎 ! 


innodb file per table 选项 让 InnoDB 为 每 张 表 使 用 一 个 文件 ， 
MySQL 4.1 和 之 后 的 版 本 都 支持 。 它 在 数据 字典 存储 为 “ 表 名 .ibd” 的 数 
据 。 这 使 得 删除 一 张 表 时 回收 空间 简单 多 了 ， 并 且 可 以 容易 地 分 散 表 到 
不 同 的 磁盘 上 。 然 而 ， 把 数据 放 到 多 个 文件 ， 总 体 来 说 可 能 导致 更 多 的 
空间 当 费 ， 因 为 把 单个 nnoDB 表 空间 的 内 部 碎片 浪费 分 布 到 了 多 个 .ibd 
文件 。 对 于 非常 小 的 表 ， 这 个 问题 更 大 ， 因 为 InnoDB 的 页 大 小 是 16 
KB。 即 使 表 只 有 1 KB 的 数据 ， 仍 然 需要 至 少 16 KB 的 磁盘 空间 。 








即使 打开 innodb_file_per_table 选 项 ， 依 然 需要 为 回 滚 日 志和 其 
他 系统 数据 创建 共享 表 空 间 。 没 有 把 所 有 数据 存在 其 中 是 明智 的 做 法 ， 
但 最 好 还 是 关闭 它 的 自动 增长 ， 因 为 无 法 在 不 重新 导入 全 部 数据 的 情况 
下 给 共享 表 空 间 瘦身 。 














一 些 人 喜欢 使 用 innodb file per table， 只 是 因为 特别 容易 管 
理 ， 并 且 可 以 看 到 每 个 表 的 文件 。 例 如 ， 可 以 通过 查看 文件 的 大 小 来 确 
认 表 的 大 小 ， 这 比 用 SHOW TABLE STATUS 来 看 快 多 了 ， 这 个 命令 需要 执 
行 很 多 复杂 的 工作 来 判断 给 一 个 表 分 配 了 多 少 页 面 。 








e 设置 innodb file_per_ table 也 有 不 好 的 一 面 : 更 差 的 DROP 
TABLE 性 能 。 这 可 能 足以 导致 显而易见 的 服务 器 端 阻塞 。 因 为 有 
如 下 两 个 原因 : 

删除 表 需 要 从 文件 系统 层 去 掉 〈 删 除 ) 文件 ， 这 可 能 在 某 些 文件 系 
统 (ext3， 说 的 就 是 你 ) 上 会 很 慢 。 可 以 通过 欺骗 文件 系统 来 缩短 
这 个 过 程 : 把 .jbd 文 件 链接 到 一 个 0 字 节 的 文件 ， 然 后 手动 删除 这 个 
文件 ， 而 不 用 等 待 MySQL 来 做 。 





。 当 打 开 这 个 选项 ， 每 张 表 都 在 mnoDB 中 使 用 自己 的 表 空 间 。 结 果 
是 ， 移 除 表 空 间 实 际 上 需要 InnoDB 锁 定 和 扫描 绥 冲 池 ， 碍 找 属于 
这 个 表 空 间 的 页 面 ， 在 一 个 有 庞大 的 缓冲 池 的 服务 器 上 做 这 个 操作 
是 非常 慢 的 。 如 果 打 算 删 除 很 多 InnoDB 表 (包括 临时 表 〉 并 且 用 
J innodb file per_table， 可 能 会 从 Percona Server 包 含 的 一 个 修 
复 中 获 益 ， 它 可 以 让 服务 器 慢 慢 地 清理 掉 属 于 被 删除 表 的 页 面 。 只 
需要 设置 innodb lazy drop table 这 个 选项 。 











什么 是 最 终 的 建议 ? 我 们 建议 使 用 innodb_file_per_table 并 日 给 
共享 表 空 间 设置 大 小 范围 ， 这 样 可 以 过 得 舒服 点 《不 用 处 理 那 些 空间 回 
收 的 事 ) 。 如 果 遇 到 任何 头痛 的 场景 ， 就 像 上 面 说 的 ， 考 虑 用 下 
Percona 的 那个 修复 。 


提醒 一 下 ， 事 实 上 没有 必要 把 InnoDB 文 件 放 在 传统 的 文件 系统 

上 。 像 许多 的 传统 数据 库 服务 器 一 样 ，InnoDB 提 供 使 用 裸 设备 的 选项 
一 一 例如 ， 一 个 没有 格式 化 的 分 区 一 一 作为 它 的 存储 。 然 而 ,今天 的 文 
件 系统 已 经 可 以 存放 足够 大 的 文件 ， 所 以 已 经 没有 必要 使 用 这 个 选项 。 
使 用 裸 设备 可 能 提升 几 个 百分点 的 性 能 ， 但 是 我 们 不 认为 这 点 小 提升 足 
以 抵消 这 样 做 带 来 的 坏处 ， 我 们 不 能 直接 用 文件 管理 数据 。 当 把 数据 存 
在 一 个 裸 设备 分 区 时 ， 不 能 使 用 mv、cp 或 其 他 任何 工具 来 操作 它 。 最 
终 ， 这 点 小 的 性 能 收益 显然 不 值得 。 





行 的 旧版 本 和 表 空间 ”在 一 个 写 压 力 大 的 环境 下 ，InnoDB 的 表 空 
间 可 能 增长 得 非常 大 。 如 果 事务 保持 打开 状态 很 入 〈 即 使 它们 没有 做 任 
何事 ) ， 并 且 使 用 默认 的 REPEATABLE ” READ 事务 隔离 级 别 ，InnoDB 将 不 
能 删除 旧 的 行 版 本 ， 因 为 没 提 交 的 事务 依然 需要 看 到 它们 。InnoDB 把 
旧版 本 存在 共享 表 空 间 ， 所 以 如 果 有 更 多 的 数据 在 更 新 ， 共 享 表 空 间 会 
持续 增长 。 有 时 这 个 问题 并 非 是 没 提 交 的 事务 的 原因 ， 也 可 能 是 工作 负 











载 的 问题 : 清理 过 程 只 有 一 个 线程 处 理 ， 直 到 最 近 的 MySQL 版 本 才 改 
进 ， 这 可 能 导致 清理 线程 处 理 速度 跟 不 上 旧版 本 行 数 增加 的 速度 。 


无 论 发 生 何 种 情况 ，SHOW INNODB STATUS 的 数据 都 可 以 帮助 定位 问 
题 。 查 看 历史 链表 的 长 度 会 显示 了 回 洲 日 志 的 大 小 ， 以 页 为 单位 。 








分 析 TRANSACT10NS 部 分 的 第 一 行 和 第 三 行 可 以 证 实 这 个 观点 ， 这 部 
分 展示 了 当前 事务 号 以 及 清理 线程 完成 到 了 哪个 点 。 如 果 这 个 差距 很 
大 ， 可 能 有 大 量 的 没有 清理 的 事务 。 





这 有 个 例子 : 


Trx id counter 0 80157601 


Purge done for trx's n:o <0 80154573 undo n:o <0 0 


事务 标识 是 一 个 64 比 特 的 数字 ， 由 两 个 32 比 特 的 数字 在 更 新 版 本 
的 InnoDB 中 这 是 个 十 六 进 制 的 数字 ) 组 成 ， 所 以 需要 做 一 点 数学 计算 
来 计算 差距 。 在 这 个 例子 中 就 很 简单 了 ， 因 为 最 高 位 是 0: 那么 有 80 
157 601-80 154 573=3 028 个 “潜在 的 ”没有 被 清理 的 事务 (innotop 可 以 做 
这 个 计算 ) 。 我 们 说 “潜在 的 "， 是 因为 这 跟 有 很 多 没有 清理 的 行 是 有 很 
大 区 别 的 。 只 有 改变 了 数据 的 事务 才 会 创建 旧版 本 的 行 ， 但 是 有 很 多 事 
务 并 没有 修改 数据 (相反 的 ， 一 个 事务 也 可 能 修改 很 多 行 〉。 








如 果 有 个 很 大 的 回 深 日 志 并 且 表 空间 因此 增长 很 快 ， 可 以 强制 
MySQL 减 速 来 使 InnoDB 的 清理 线程 可 以 跟 得 上 。 这 听 起 来 不 怎么 样 ， 
但 是 没 办 法 。 人 否则 ，InnoDB 将 保持 数据 写 入 ， 填 充 磁 盘 直 到 最 后 磁盘 














空间 爆满 ， 或 者 表 空 间 大 于 定义 的 上 限 。 


为 了 控制 写 入 速度 ， 可 以 设置 innodb_max_purge_lag 变 量 为 一 个 大 
于 0 的 值 。 这 个 值 表 示 InnoDB 开 始 延 迟 后 面 的 语句 更 新 数据 之 前 ， 可 以 
等 待 被 清除 的 最 大 的 事务 数量 。 你 必须 知道 工作 负载 以 决定 一 个 合理 的 
值 。 例 如 ， 事 务 平均 影响 1KB 的 行 ， 并 且 可 以 容许 表 空间 里 有 100MB 的 
未 清理 行 ， 那 么 可 以 设置 这 个 值 为 100000。 














牢记 ， 没 有 清理 的 行 版 本 会 对 所 有 的 查询 产生 影响 ， 因 为 它们 事实 
上 使 得 表 和 索引 更 大 了 。 如 果 清 理 线程 确实 跟 不 上 ， 性 能 可 能 显著 的 下 
降 。 设 置 innodb_max_purge_lag 变 量 也 会 降低 性 能 ， 但 是 它 的 伤害 较 
sy, aD 








在 更 新 版 本 的 MySQL 中 ， 甚 至 在 更 早 版 本 的 Percona Server 和 
MariaDB， 清 理 过 程 已 经 显著 地 提升 了 性 能 ， 并 且 从 其 他 内 部 工作 任务 
中 分 离 出 来 。 甚 至 可 以 创建 多 个 专用 的 清理 线程 来 更 快 地 做 这 个 后 台 工 
作 。 如 果 可 以 利用 这 些 特 性 ， 会 比 限制 服务 器 的 服务 能 力 要 好 得 多 。 





双 写 缓冲 (Doublewrite Buffer) 


InnoDB 用 双 写 缓冲 来 避免 页 没 写 完整 所 导致 的 数据 损坏 。 当 一 个 
磁盘 写 操 作 不 能 完整 地 完成 时 ， 不 完整 的 页 写 入 就 可 能 发 生 ，16KB 的 
页 可 能 只 有 一 部 分 被 写 到 磁盘 上 。 有 多 种 多 样 的 原因 (类 沉 、Bug， 等 
T) 可 能 导致 页 没有 写 完整 。 双 写 缓冲 在 这 种 情况 发 生 时 可 以 保证 数据 


双 写 缓冲 是 表 空 间 一 个 特殊 的 保留 区 域 ， 在 一 些 连续 的 块 中 足够 保 
存 100 个 页 。 本 质 上 是 一 个 最 近 写 回 的 页 面 的 备份 拷贝 。 当 InnoDB 从 组 
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再 把 它们 与 到 其 所 属 的 数据 区 域 中 。 这 可 以 保证 每 个 页 面 的 写 入 都 是 原 
子 并 且 持 久 化 的 。 











这 意味 着 每 个 页 都 要 写 两 届 ? 是 的 ， 但 是 因为 InnoDB 写 页 面 到 双 
写 缓 冲 是 顺序 的 ， 并 且 只 调用 一 次 fsyncO 刷 新 到 磁盘 ， 所 以 实际 上 对 性 
能 的 冲击 是 比较 小 的 一 一 通常 只 有 几 个 百分点 ， 肯 定 没 有 一 半 那 么 多 ， 
尽管 这 个 开销 在 SSD 上 更 明显 ， 我 们 下 一 章 会 讨论 这 个 问题 。 更 重要 的 
是 ， 这 个 策略 允许 日 志文 件 更 加 高 效 。 因 为 双 写 缓冲 给 了 InnoDB 一 个 
非常 牢固 的 保证 ， 数 据 页 不 会 损坏 ，InnoDB 日 志 记 录 没 必要 包含 整个 
页 ， 它 们 更 像 是 页 面 的 二 进 制 变 化 量 。 














如 果 有 一 个 不 完整 的 页 写 到 了 双 写 绥 冲 ， 原 始 的 页 依然 会 在 磁盘 上 
它 的 真实 位 置 。 当 InnoDB 恢 复 时 ， 它 将 用 原始 页 面 蔡 换 挥 双 写 绥 冲 中 
的 损坏 页 面 。 然 而 ， 如 有 果 双 写 缓冲 成 功 写 入 ， 但 写 到 页 的 真实 位 置 失 败 
了 ，InnoDB 在 恢复 时 将 使 用 双 写 绥 冲 中 的 拷贝 来 蔡 换 。InnoDB 知 道 什 
么 时 候 页 面 损坏 了 ， 因 为 每 个 页 面 在 末尾 都 有 校 验 值 (Checksum) 。 
校 验 值 是 最 后 写 到 页 面 的 东西 ， 所 以 如 果 页 面 的 内 容 跟 校 验 值 不 匹配 ， 
说 明 这 个 页 面 是 损坏 的 。 因 此 ， 在 恢复 的 时 候 ，InnoDB 只 需要 读 取 双 
写 缓冲 中 每 个 页 面 并 且 验 证 校 验 值 。 如 果 一 个 页 面 的 校 验 值 不 对 ， 就 从 
它 的 原始 位 置 读 取 这 个 页 面 。 





























有 些 场景 下 ， 双 写 缕 冲 确实 没 必要 一 一 例如 ， 你 也 许 想 在 备 库 上 禁 
止 双 写 绥 冲 。 此 外 一 些 文 件 系 统 ( 例 如 ZFS) 做 了 同样 的 事 ， 所 以 没 必 
要 再 让 InnoDB 做 一 遍 。 可 以 通过 设置 jnnodb doublewrite 为 0 来 天 闭 双 
写 缓冲 。 在 Percona Server 中 ， 可 以 配置 双 写 缓冲 存 到 独立 的 文件 中 ， 所 
以 可 以 把 这 部 分 工作 压力 分 离 出 来 放 在 单独 的 盘 上 。 


其 他 的 VO 配置 项 


sync_binlog 选 项 控制 MySQL 怎 么 刷新 二 进 制 日 志 到 磁盘 。 默 认 值 是 
0， 意 味 着 MySQL 并 不 刷新 ， 由 操作 系统 自己 决定 什么 时 候 刷新 缓存 到 
持久 化 设备 。 如 果 这 个 值 比 0 大 ， 它 指定 了 两 次 刷新 到 磁盘 的 动作 之 间 
间隔 多 少 次 二 进 制 日 志 写 操作 (如 果 autocommit 被 设置 了 ， 每 个 独立 的 
语句 都 是 一 次 写 ， 否 则 就 是 一 个 事务 一 次 写 ) 。 把 它 设置 为 Oo 和 1 以 外 的 
值 是 很 罕见 的 。 








如 果 没 有 设置 sync_binlog 为 1， 那 么 月 尝 以 后 可 能 导致 二 进 制 日 志 
没有 同步 事务 数据 。 这 可 以 轻易 地 导致 复制 中 断 ， 并 且 使 得 及 时 恢复 变 
得 不 可 能 。 无 论 如 何 ， 可 以 把 这 个 值 设 置 为 1 来 获得 安全 的 保障 。 这 样 
就 会 要 求 MySQL 同步 把 二 进 制 日 志和 事务 日 志 这 两 个 文件 刷新 到 两 个 
不 同 的 位 置 。 这 可 能 需要 磁盘 寻 道 ， 相 对 来 说 是 个 很 慢 的 操作 。 








像 InnoDB 日 志文 件 一 样 ， 把 二 进 制 日 志 放 到 一 个 市 有 电池 保护 的 
写 缓存 的 RAID 卷 ， 可 以 极 大 地 提升 性 能 。 事 实 上 ， 写 和 刷新 二 进 制 日 
志 绥 存 其 实 比 ImnoDB 事 务 日 志 要 员 贵 多 了 ， 因 为 不 像 mnoDB 事 务 日 
志 ， 每 次 写 二 进 制 日 志 都 会 增加 它们 的 大 小 。 这 需要 每 次 写 入 文件 系统 
都 更 新 元 信息 。 所 以 ， 设 置 sync_binlog=1 可 能 比 
innodb_ fush_log at trx_commit=1 对 性 能 的 损害 要 大 得 多 ， 尤 其 是 网 
络 文 件 系统 ， 例 如 NFS。 








一 个 跟 性 能 无 关 的 提示 ， 关 于 二 进 制 日 志 : 如 果 和 希望 使 
用 expire_logs_days 选 项 来 自动 清理 旧 的 二 进 制 日 志 ， 就 不 要 用 rm 命令 
去 删 。 服 务 器 会 感到 困惑 并 且 拒 绝 自动 删除 它们 ， 并 且 PURGE MASTER 
L0GS 也 将 停止 工作 。 解 决 的 办 法 是 ， 如 果 发 现 了 这 种 情况 ， 就 手动 重新 


同步 “主机 名 -bin.index” 文 件 ， 可 以 用 磁盘 上 现 有 日 志文 件 的 列表 来 更 
新 。 





我 们 将 在 下 一 章 更 深入 地 涉及 RAID， 但 是 值得 在 这 里 重复 一 下 ， 

把 带 有 电池 保护 写 缓存 的 高 质量 RAID 控 制 器 设置 为 使 用 写 回 
(Writeback) 策略 ， 可 以 支持 每 秒 数 干 的 写 入 ， 并 且 依 然 会 保证 写 到 持 
久 化 存储 。 数 据 写 到 了 带 有 电池 的 高 速 缓存 ， 所 以 即使 系统 断 电 它 也 能 
存在 。 但 电源 恢复 时 ，RAID 控 制 器 会 在 磁盘 被 设置 为 可 用 前 ， 把 数据 
从 缓存 中 写 到 磁盘 。 因 此 ， 一 个 市 有 电池 保护 写 缓存 的 RAID 控 制 器 可 
以 显著 地 提升 性 能 ， 这 是 非常 值得 的 投资 。 当 然 ，SSD 存 储 是 另 一 个 选 
择 ， 我 们 也 会 在 下 一 章 讲 到 。 














8.5.2 MyISAM 的 WO 配置 


让 我 们 从 分 析 MyISAM 怎 么 为 索引 操作 MO 开始 。MyISAM 通 党 每 次 
写 操作 之 后 就 把 索引 变更 刷新 磁盘 。 如 你 打算 在 一 张 表 上 做 很 多 修改 ， 
那么 毫 无 疑问 ， 批 量 操作 会 更 快 一 些 。 一 种 办 法 是 用 LOCK ”TABLES 延 迟 
写 入 ， 直 到 解锁 这 些 表 。 这 是 个 提升 性 能 的 很 有 价值 的 技巧 ， 因 为 它 使 
得 你 精确 控制 哪些 写 被 延迟 ， 以 及 什么 时 候 把 它们 刷 到 磁盘 。 可 以 精确 
延迟 那些 希望 延迟 的 语句 。 


通过 设置 qdelay_key_wr ite 变 量 ， 也 可 以 延迟 索引 的 写 入 。 如 宁 这 
么 做 ， 修 改 的 键 缓冲 块 直到 表 被 关闭 才 会 刷新 。 呈 可 能 的 配置 如 下 : 


OFF 


MyISAM 每 次 写 操作 后 刷新 键 缓冲 〈 键 缓存 ，Key Buffer) 中 的 脏 


块 到 磁盘 ， 除 非 表 被 LOCK TABLES 锁 定 了 。 
ON 


打开 延迟 键 写 入 ， 但 是 只 对 用 DELAY_KEY_WRITE 选 项 创建 的 表 有 
效 。 


ALL 


所 有 的 MYISAM 表 都 会 使 用 延迟 键 写 入 。 





延迟 键 写 入 在 东 坚 场景 下 可 能 很 有 帮助 ， 但 是 通常 不 会 带 来 很 大 的 
性 能 提升 。 当 键 缓冲 的 读 命中 很 好 但 写 命中 不 好 时 ， 数 据 又 比较 小 ， 这 
能 很 有 用 。 当 然 也 有 一 小 部 分 缺点 : 





。 如 果 服 务 器 绥 存 并 且 块 没有 被 刷 到 磁盘 ， 索 引 可 能 会 损坏 。 

。 如 果 很 多 写 被 延迟 了 ，MySQL 可 能 需要 花费 更 长 时 间 去 关闭 表 ， 
因为 必须 等 待 缓冲 刷新 到 磁盘 。 在 MySQL 5.0 这 可 能 引起 很 长 的 表 
缓存 锁 。 

由 于 上 面 提 到 的 原因 ，FLUSH TABLES 可 能 需要 很 长 时 间 。 如 果 为 了 
做 逻辑 卷 (LVM) 快照 或 者 其 他 备份 操作 ， 而 执行 FLUSH TABLES 
WITH READ LOCK， 那 可 能 增加 操作 的 时 间 。 

键 缓冲 中 没有 刷 回 去 的 脏 块 可 能 占用 空间 ， 导 致 从 磁盘 上 读 取 的 新 
块 没有 空间 存放 。 因 此 ， 查 询 语 句 可 能 需要 等 待 MyISAM 释 放 一 些 
键 缓存 的 空间 。 











另外 ， 除 了 配置 MyISAM 的 索引 VO 还 可 以 配置 MyISAM 怎 样 尝试 从 
损坏 中 恢复 。myisam_recover 选 项 控制 MyISAM 怎 样 寻找 和 修复 错误 。 
需要 在 配置 文件 或 者 命令 行 中 设置 这 个 选项 。 可 以 通过 下 面 的 SQL 语句 


碍 看 选项 的 值 ， 但 是 不 能 修改 〈 这 不 是 个 印刷 错误 
命令 的 变量 名 有 差异 ) : 


系统 里 变量 名 跟 








mysql> SHOW VARIABLES LIKE 'myisam_recover_options'; 


打开 这 个 选项 通知 MYSQL 在 表 打 开 时 ， 检 碍 是 售 损 坏 ， 并 且 在 找 
到 问题 的 时 候 进 行 修复 。 可 以 设置 的 值 如 下 : 


DEFAULT (或 者 不 设置 ) 








使 MySQL 演 试 修复 任何 被 标记 为 朋 尝 或 者 没有 标记 为 完全 关 
闭 的 表 。 默 认 值 不 要 求 在 恢复 时 执行 其 他 动作 。 跟 大 多 数 变 量 不 
同 ， 这 里 DEFAULT 值 不 是 重 置 变量 的 值 为 编译 值 ， 它 本 质 上 意味 
着 “没有 设置 ”。 








BACKUP 


让 MySQL 将 数据 文件 的 备份 写 到 .BAK 文 件 ， 以 便 随 后 进行 检 


即使 .MYD 文 件 中 丢失 的 数据 可 能 超过 一 行 ， 也 让 恢复 继续 。 
QUICK 


除非 有 删除 块 ， 人 否则 跳 过 恢复 。 块 中 有 已 经 删除 的 行 也 依然 会 
占用 空间 ， 但 是 可 以 被 后 面 的 INSERT 语 句 重 用。 这 可 能 比较 有 用 ， 
因为 MyISAM 大 表 的 恢复 可 能 花费 相当 长 的 时 间 。 


可 以 使 用 多 个 设置 ， 用 有 逗号 分 隔 。 例 如 “BACKUP, FORCE” 会 强制 恢复 
并 且 创 建 备份 。 这 是 为 什么 我 们 在 这 一 章 前 面部 分 的 示例 配置 中 这 么 用 
的 原因 。 





我 们 建议 打开 这 个 选项 ， 尤 其 是 只 有 一 些小 的 MyISAM 表 时 。 服 务 
器 运行 着 一 些 损坏 的 MyISAM 表 是 很 危险 的 ， 因 为 它们 有 了 时 可 以 导致 更 
多 数据 损坏 ， 甚 至 服务 器 朋 演 。 然 而 ， 如 果 有 很 大 的 表 ， 原 子 恢复 是 不 
切实 际 的 : 它 导 致 服务 器 打开 所 有 的 MyISAM 表 时 都 会 检查 和 修复 ， 这 
是 低 效 的 做 法 。 在 这 段 时 间 ，MySQL 会 阻止 连接 做 任何 工作 。 如 果 有 
一 大 堆 的 MyISAM 表 ， 比 较 好 的 主意 还 是 启动 后 用 CHECK TABLES 和 
REPAIR ”TABLES 命 令 来 做 (， 这 样 对 服务 器 影响 比较 少 。 不 管 哪 种 方 
式 ， 检 查 和 修复 表 都 是 很 重要 的 。 




















打开 数据 文件 的 内 存 映 射 (MMAP) 访问 是 另 一 个 有 用 的 MyISAM 
选项 。 内 存 映射 使 得 MyISAM 直 接 通过 操作 系统 的 页 面 缓存 访问 .MYD 
文件 ， 避 免 系 统 调用 的 开销 。 在 MySQL 5.1 和 更 新 的 版 本 中 ， 可 以 通过 
myisam_use_mmap 选 项 打开 内 存 上 映射。 更 老 版 本 的 MySQL 只 能 对 压缩 的 
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8.6 ”配置 MySQL 并 发 


当 MySQL 承 受 高 并 发 压力 时 ， 可 能 会 遇 到 不 曾 遇 到 过 的 瓶 贷 。 这 
个 章节 阐述 了 当 这 些 问 题 出 现 的 时 候 ， 怎 样 去 发 现 它 们 ， 以 及 在 
MyISAM 和 InnoDB 遇 到 这 样 的 压力 时 怎样 获得 尽 可 能 最 好 的 性 能 。 


8.6.1 InnoDB 并 发 配置 


InnoDB 是 为 高 性 能 设计 的 ， 在 最 近 几 年 它 的 提升 非常 明显 ， 但 依 
然 不 完美 。InnoDB 架 构 在 有 限 的 内 存 、 单 CPU、 单 磁盘 的 系统 中 仍然 暴 
露出 一 些 根本 性 问题 。 在 高 并 发 场景 下 ， ”InnoDB 的 某 些 方面 的 性 能 可 
能 会 降低 ， 唯 一 的 办 法 是 限制 并 发 。 可 以 参考 第 3 章 中 使 用 的 技巧 来 诊 
斯 并 发 问题 。 











如 果 在 InnoDB 并 发 方面 有 问题 ， 解 决 方案 通常 是 升级 服务 器 。 相 
比 当前 的 版 本 ， 像 MySQL 5.0 和 早期 的 MySQL 5.1 这 样 的 旧版 本 ， 在 高 
并 发 下 完全 是 个 悲剧 。 所 有 的 东西 都 在 全 局 Mutex《〈 例 如 ， 组 冲 池 
Mutex) 上 排队 ， 导 致 服务 器 几乎 陷入 停顿 。 如 果 升 级 到 某 个 更 新 版 本 
的 MySQL， 在 大 部 分 场景 都 不 再 需要 限制 并 发 。 





如 有 果 需 要 这 人 么 做 ， 这 里 会 介绍 它 是 怎么 工作 的 。InnoDB 有 上 自己 
的 “线程 调度 器 ”控制 线程 怎么 进入 内 核 访 问 数据 ， 以 及 它们 在 内 核 中 一 
次 可 以 做 哪些 事 。 最 基本 的 限制 并 发 的 方式 是 使 
用 innodb_ thread_concurrency 变 量 ， 它 会 限制 一 次 性 可 以 有 多 少 线程 
进入 内 核 ，0 表 示 不 限制 。 如 果 在 上 日 的 MySQL 版 本 里 有 InnoDB 并 发 问 








题 ， 这 个 变量 是 最 重要 的 配置 之 一 2 。 


在 任何 架构 和 业务 压力 下 ， 给 这 个 变量 设置 个 “ 靠 谱 ?的 值 都 很 重 
要 ， 理 论 上 ， 下 面 的 公式 可 以 给 出 一 个 这 样 的 值 : 





并 发 值 =CPU 数 量 * 磁盘 数量 *2 











但 是 在 实践 中 ， 使 用 更 小 的 值 会 更 好 一 点 。 必 须 做 实验 来 找 出 适合 
系统 的 最 好 的 值 。 


如 果 已 经 进入 内 核 的 线程 超过 了 人 允许 的 数量 ， 新 的 线程 就 无 法 再 进 
入 内 核 。InnoDB 使 用 两 段 处 理 来 尝试 让 线程 尽 可 能 高 效 地 进入 内 核 。 
两 段 策 略 减少 了 因 操 作 系统 调度 引起 的 上 下 文 切 换 。 线 程 第 一 次 休 
眠 innodb_thread_sleep_delay 微 秒 ， 然 后 再 重 试 。 如 有 果 它 依然 不 能 ; 
入 内 核 ， 则 放 入 一 个 等 待 线程 队列 ， 让 操作 系统 来 处 理 。 


第 一 阶段 默认 的 休眠 时 间 是 10000 微 秒 。 当 CPU 有 大 量 的 线程 处 
在 “进入 队列 前 的 休 虐 ”状态 ， 因 而 没有 被 充分 利用 时 ， 改 变 这 个 值 在 高 
并 发 环境 里 可 能 会 有 帮助 。 如 果 有 大 量 的 小 查询 ， 默 认 值 可 能 也 太 大 
了 ， 因 为 这 增加 了 10 毫 秒 的 查询 延 时 。 











一 且 线 程 进入 内 核 ， 它 会 有 一 定数 量 的 “票据 (Tickets) ”， 可 以 让 
它 “ 人 免费 ”返回 内 核 ， 不 需 再 做 并 发 检查 。 这 限制 了 一 个 线程 回 到 其 他 等 
竺 线程 之 前 可 以 做 多 少 事 。innodb_concurrency_tickets 选 项 控制 票据 
的 数量 。 它 很 少 需 要 修改 ， 除 非 有 很 多 运行 时 间 极 长 的 查询 。 票 据 是 按 
查询 授权 的 ， 不 是 按 事 务 。 一 旦 碍 询 完 成 ， 它 没 用 完 的 票据 承 销毁 了 。 
除了 绥 冲 池 和 其 他 结构 的 瓶颈 ， 还 有 另 一 个 提 区 阶段 的 并 发 瓶颈 ， 这 个 
时 候 LIO 非 常 密 集 ， 因 为 需要 做 刷新 操作 。innodb_commit_concurrency 
变量 控制 有 多 少 个 线程 可 以 在 同一 时 间 提 交 。 如 果 

















innodb_thread_concurrency 配 置 得 很 低 也 有 大 量 的 线程 冲突 ， 那 么 配 
置 这 个 选项 可 能 会 有 帮助 。 


最 后 ， 有 一 个 新 的 解决 方案 值得 考虑 : 使 用 线程 池 (Thread Pool) 
来 限制 并 发 。 原 始 的 线程 池 实 现 已 经 随 着 MySQL 6.0 的 代码 树 一 起 被 废 
弃 了 ， 并 且 有 严重 缺陷 。 但 是 MariaDB 已 经 重新 实现 了 ， 并 且 Oracle 最 
近 放 出 了 一 个 商业 插件 可 以 为 MySQL 5.5 提 供 线 程 池 功 能 。 对 这 些 东西 
我 们 都 没有 足够 的 经 验 来 指导 你 怎么 做 ， 你 也 许 会 更 加 困惑 ， 因 为 我 们 
会 指出 这 两 种 实现 似乎 都 不 满足 Facebook， 它 在 自己 内 部 私有 的 MySQL 
分 文中 有 一 个 叫做 “ 准 入 控制 ?的 特殊 功能 。 如 果 可 能 的 话 ， 在 这 本 书 的 
第 4 版 我 们 将 分 享 一 些 线程 池 的 知识 ， 以 及 什么 时 候 它 们 可 以 工作 ， 什 
么 时 候 不 能 工作 。 











8.6.2 MyISAM 并 发 配置 





在 东 些 条 件 下 ，MYyISAM 也 人 允许 并 及 插入 和 读 取 ， 这 使 得 可 以 “ 调 
度 ” 荣 些 操作 以 尽 可 能 少 地 产生 阻塞 。 


在 讲述 MyISAM 的 并 发 设置 之 前 ， 理 解 MyISAM 是 怎样 删除 和 插入 
行 的 ， 是 非常 重要 的 。 删 除 操作 不 会 重新 整理 整个 表 ， 它 们 只 是 把 行 标 
记 为 删除 ， 在 表 中 留 下 “空洞 "。MyISAM 倾 向 于 在 可 能 的 时 候 填 满 这 些 
空洞 ， 在 插入 行 时 重新 利用 这 些 空间 。 如 果 没 有 空洞 了 ， 它 就 把 新 行 插 
入 表 的 末尾 。 

尽管 MyISAM 是 表 级 锁 ， 它 依然 可 以 一 边 读 取 ， 一 边 并 发 退 加 新 


行 。 这 种 情况 下 只 能 读 取 到 碍 询 开 始 时 的 所 有 数据 ， 新 插入 的 数据 是 不 
可 见 的 。 这 样 可 以 避免 不 一 致 读 。 


PRIM, Ar Se PTB Reais Ron SINT, ee E Ge GE BIW 
MVCC 是 解决 这 个 问题 最 流行 的 方法 : 一 旦 修改 者 创建 了 新 版 本 ， 它 就 
让 读 取 者 读数 据 的 旧版 本 。 可 是 ， MyISAM 并 不 像 InnoDB 那 样 支持 
MVCC， 所 以 除非 插入 操作 在 表 的 末尾 ， 否 则 不 能 支持 并 发 插入 。 





通过 设置 concurrent_insert 这 个 变量 ， 可 以 配置 MyI SAM 打 开 并 
发 插入 ， 可 以 配置 为 如 下 值 : 





0 

MyISAM 不 允许 并 发 插入 ， 所 有 插入 都 会 对 表 加 互 斥 锁 。 
1 

这 是 默认 值 。 只 要 表 中 没有 空洞 ，MyISAM 就 允许 并 发 插入 。 
2 


这 个 值 在 MySQL 5.0 以 及 更 新 版 本 中 有 效 。 它 强制 并 发 插入 到 
表 的 末尾 ， 即 使 表 中 有 空洞 。 如 果 没 有 线程 从 表 中 读 取 数据 ， 
MySQL 将 把 新 行 放 在 空洞 里 。 使 用 这 个 设置 通常 会 使 表 更 加 碎片 
Mo 


如 果 合 并 操作 可 以 更 加 高 效 ， 也 可 以 配置 MySQL 对 一 些 操作 进行 
延迟 。 举 个 实例 ， 可 以 通过 delay_key_wr ite 变 量 延迟 写 索 引 ， 正 如 这 
一 章 前 面 我 们 提 到 的 。 这 牵涉 到 熟悉 的 权衡 :立即 写 索引 〔 安 全 但 是 昂 
) ， 或 者 等 待 但 是 祈求 在 写 发 生前 别 断 电 《 更 快 ， 但 是 遇 到 骨 训 时 可 
E 引 起 巨大 的 索引 损坏 ， 因 为 索引 文件 已 经 过 期 了 ) 。 








ral 


a> 


也 可 以 让 INSERT、REPLACE、DELETE、 以 及 UPDATE 语 句 的 优先 级 比 
SELECT 语句 更 低 ， 设 置 1ow_priority updates 选 项 就 可 以 了 。 这 相当 于 
把 LOW_PR10RITY 修 饰 符 应 用 到 全 局 UPDATE 语 句 。 当 使 用 MyISAM 时 ， 这 
是 个 非常 重要 的 选项 ， 这 让 SELECT 语 句 可 以 获得 相当 好 的 并 发 度 ， 否 则 
一 小 部 分 获取 高 优先 级 写 锁 的 语句 就 可 能 导致 SELECT 无 法 获取 资源 。 





最 后 ， 尽 管 PmnoDB 的 扩展 性 问题 更 经 稼 被 提 及 ， 但 是 MyISAM 一 样 
也 有 长 时 间 获 取 Mutex 的 问题 。 在 MySQL 4.0 和 更 早 版 本 里 ， 有 一 个 全 
局 的 Mutex 保 护 所 有 的 键 缓存 VO， 在 多 处 理 器 和 多 磁盘 环境 下 很 容易 引 
起 扩展 性 问题 。MySQL 4.1 的 键 缓存 代码 做 了 改进 ， 就 不 再 有 这 些 问 题 
了 ， 但 是 它 依然 对 每 个 键 缓冲 区 持 有 一 个 Mutex。 当 一 个 线程 从 键 缓冲 
中 复制 键 数据 块 到 本 地 磁盘 时 会 有 竞争 ， 从 磁盘 上 读 取 时 就 没 这 个 问 
题 。 磁 盘 瓶 颈 没 了 ， 但 是 当 你 在 键 缓冲 里 访问 数据 时 ， 另 一 个 瓶颈 出 现 
了 。 有 时 可 以 围绕 这 个 问题 把 键 缓冲 分 成 多 个 区 ， 但 是 这 条 路 不 总 是 行 
得 通 。 例 如 ， 只 涉及 一 个 独立 索引 的 时 候 ， 这 问题 就 没有 办 法 解决 。 于 
是 ， 在 多 处 理 器 的 机 器 上 SELECT 查询 并 发 可 能 相对 单 CPU 的 机 器 显著 下 
降 ， 即 使 当时 只 有 这 些 SELECT 查 询 在 执行 。 











MariaDB 提 供 分 开 的 “分 区 的 ) 键 缓冲 ， 如 果 经 常 过 到 这 个 问题 ， 
也 许可 以 带 来 帮助 。 


8.7 基于 工作 负载 的 配置 


配置 服务 器 的 一 个 目标 是 把 它 定 制 信 AE 这 需要 
精通 所 有 类 型 的 服务 器 活动 的 数量 、 类 型 ， 频率 是 查询 
语句 ， 也 包括 其 他 的 活动 ， 例 如 连接 服务 器 以 及 刷新 表 。 























第 一 件 应 该 做 的 事情 是 熟悉 你 的 服务 器 ， 如 采 还 没 做 就 赶集 。 了 解 
什么 样 的 查询 跑 在 上 面 。 用 例如 innotop 这 样 的 工具 来 监控 它 ， 用 pt- 
query-digest 来 创建 查询 报告 。 这 不 仅 帮 助 你 全 面 地 了 解 服务 器 正在 做 什 
么 ， 还 可 以 知道 查询 花费 大 量 时 间 做 了 哪些 事 。 第 3 章 曾 明了 怎么 把 这 
些 东西 找 出 来 。 








当 服 务 器 在 满载 情况 下 运行 时 ， 请 尝试 记录 所 有 的 查询 语句 ， 因 为 
这 是 最 好 的 方式 来 查看 哪 种 类 型 的 查询 语句 占用 资源 最 多 。 同 时 ， 创 建 
processlist 快 照 ， 通 过 state 或 者 command 字 段 来 聚合 它们 (innotop 可 以 实 
现 ， 或 者 可 以 使 用 第 3 章 展 示 的 脚本 〉。 例 如 ， 是 否 大 量 地 在 复制 数据 
到 临时 表 ， 或 者 排序 数据 ? 如 果 有 ， 也 许 需要 优化 查询 语句 ， 以 及 查看 
临时 表 和 排序 缓冲 配置 项 。 





8.7.1 优化 BLOB 和 TEXT 的 场景 


BLOB 和 TEXT 列 对 MySQL 来 说 是 特殊 类 型 的 场景 (我 们 把 所 有 BLOB 
和 TEXT 都 简单 称 为 BLOB 类 型 ， 因 为 它们 属于 相同 类 型 的 数据 ) 。BLOB 值 
有 几 个 限制 使 得 服务 器 对 它 的 处 理 跟 其 他 类 型 不 一 样 。 一 个 最 重要 的 注 
意 事项 是 ， 服 务 器 不 能 在 内 存 临时 表 中 存储 BLOB 值 名 ， 因 此 ， 如 果 一 





个 查询 涉及 BLOB 值 ， 叉 需要 使 用 临时 表 一 一 不 管 它 多 小 一 一 它 痢 会 并 
即 在 磁盘 上 创建 临时 表 。 这 样 效率 很 低 ， 尤 其 是 对 小 而 快 的 查询 。 临 时 
表 可 能 是 查询 中 最 大 的 开销 。 








有 了 两 种 办 法 来 减轻 这 个 不 利 的 情况 : 通过 SUBSTRING 0 函数 (第 4 章 
有 更 多 关于 这 个 函数 的 细节 ) 把 值 转换 为 VARCHAR， 或 者 让 临时 表 更 快 


一 些 _， 


让 临时 表 运 行 更 快 的 最 好 方式 是 ， 把 它们 放 在 基于 内 存 的 文件 系统 
(GNU/Linux 上 是 tmpfs〉。 这 会 降低 一 些 开销 ， 尽 管 这 依然 比 内 存 表 慢 
许多 。 因 为 操作 系统 会 避免 把 数据 写 到 磁盘 ， 所 以 内 存 文件 系统 可 以 帮 
助 提升 性 能 2。 一 般 的 文件 系统 也 会 在 内 存 中 缓存 ， 但 是 操作 系统 会 
每 隔 几 秒 就 刷新 一 次 。tmp 庆 文件 系统 从 来 不 会 刷新 ， 它 就 是 为 低 开 销 和 
简单 起 见 而 设计 的 。 例 如 ， 没 必要 为 这 个 文件 系统 预备 任何 恢复 方案 。 
这 使 得 它 更 快 。 


服务 器 设置 里 控制 临时 表 文 件 放 在 哪 的 是 tmpdir。 建 议 监控 文件 系 
统 使 用 率 以 保证 有 足够 的 空间 存放 临时 表 。 如 果 需 要 ， 可 以 指定 多 个 临 
时 表 存 放 位 置 ，MySQL 将 会 轮 询 使 用 。 


如 果 BL0B 列 非常 大 ， 并 且 用 的 是 InnoDB， 也 许可 以 调 大 InnoDB 日 
志 绥 冲 大 小 。 在 这 一 章 前 面 有 更 多 关于 这 方面 的 内 容 。 





对 于 很 长 的 变 长 列 〈 例 如 ，BLOB、TEXT， 以 及 长 字符 列 ) ， 
InnoDB 存 储 一 个 768 字 节 的 前 绥 在 行内 名 。 如 果 列 的 值 比 前 绥 长 ， 
InnoDB 会 在 行 外 分 配 扩 展 存储 空间 来 存 剩 下 的 部 分 。 它 会 分 配 一 个 完 
整 的 16KB 的 页 ， 像 其 他 所 有 的 InnoDB 页 面 一 样 ， 每 个 列 都 有 自己 的 页 
A (不同 的 列 不 会 共享 扩展 存储 空间 )〉 。InnoDB 一 次 只 为 一 个 列 分 配 
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64 个 页 面 。 





注意 ， 我 们 说 过 InnoDB 可 能 会 分 配 扩展 存储 空间 。 如 果 总 的 行 长 
(包括 大 字段 的 完整 长 度 ) 比 InnoDB 的 最 大 行 长 限制 要 短 〈 比 8KB 小 一 
些 ) ，InnoDB 将 不 会 分 配 扩展 存储 空间 ， 即 使 大 字段 (Long column) 
的 长 度 超过 了 前 级 长 度 。 








最 后 ， 当 InnoDB 更 新 存储 在 扩展 存储 空间 中 的 大 字段 时 ， 将 不 会 
在 原来 的 位 置 更 新 。 而 是 会 在 扩展 存储 空间 中 写 一 个 新 值 到 一 个 新 的 位 
置 ， 并 且 不 会 删除 旧 的 值 。 


所 有 这 一 切 都 有 以 下 后 果 : 


。 大 字段 在 InnoDB 里 可 能 浪费 大 量 空间 。 例 如 ， 若 存储 字段 值 只 是 
比 行 的 要 求 多 了 一 个 字 节 ， 也 会 使 用 整个 页 面 来 存储 剩 下 的 字 节 ， 
浪费 了 页 面 的 大 部 分 空间 。 同 样 的 ， 如 果 有 一 个 值 只 是 稍微 超过 了 
32 个 页 的 大 小 ， 实 际 上 就 需要 使 用 96 个 页 面 。 

扩展 存储 禁用 了 上 自 适应 哈 希 ， 因 为 需要 完整 地 比较 列 的 整个 长 度 ， 
才能 发 现 是 不 是 正确 的 数据 ( 哈 希 帮助 InnoDB 非 常 快速 地 找到 “ 猜 
测 的 位 置 "， 但 是 必须 检查 “猜测 的 位 置 * 是 不 是 正确 〉。 因 为 自 适 
应 哈 希 是 完全 的 内 存 结构 ， 并 且 直 接 指 向 Buffer Pool 中 访问 “最 ” 频 
繁 的 页 面 ， 但 对 于 扩展 存储 空间 却 无 法 使 用 自 适 应 哈 希 。 

太 长 的 值 可 能 使 得 在 查询 中 作为 WHERE 条 件 不 能 使 用 索引 ， 因 而 执 
行 很 慢 。 在 应 用 WHERE 条 件 之 前 ，MySQL 需 要 把 所 有 的 列 读 出 来 ， 
所 以 可 能 导致 MySQL 要 求 InnoDB 读 取 很 多 扩展 存储 ， 然 后 检查 
WHERE 和 条件， 丢弃 所 有 不 需要 的 数据 。 和 查询 不 需要 的 列 绝 不 是 好 主 
意 ， 在 这 种 特殊 的 场景 下 尤其 需要 避免 这 样 做 。 如 果 发 现 查 询 正 遇 
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。 如 果 一 张 表 里 有 很 多 大 字段 ， 最 好 是 把 它们 组 合 起 来 单独 存 到 一 个 
列 里 面 ， 比 如 说 用 XML 文档 格式 存储 。 这 让 所 有 的 大 字段 共享 一 

个 扩展 存储 空间 ， 这 比 每 个 字段 用 自己 的 页 要 好 。 

。 有 时候 可 以 把 大 字段 用 COMPRESS () 压缩 后 再 存 为 BLOB， 或 者 在 发 送 
到 MySQL 前 在 应 用 程序 中 进行 压缩 ， 这 可 以 获得 显著 的 空间 优势 
和 性 能 收益 。 


8.7.2 ”优化 排序 (Filesorts) 


从 第 6 章 我 们 知道 MySQL 有 两 种 排序 算法 。 如 果 人 查询 中 所有 需要 的 
列 和 ORDER BY 的 列 总 大 小 超过 max_length for _ sort data 字 节 ， 则 采用 
two-pass 算 法 。 或 者 当 任何 需要 的 列 即使 没有 被 ORDER ”BY 使 用 的 列 
一 一 是 BL0B 或 者 TEXT， 也 会 采用 这 个 算法 。《 可 以 用 SUBSTRING O 把 这 
些 列 转换 一 下 ， 就 可 以 用 single-pass 算 法 了 。) 











MySQL 有 两 个 变量 可 以 控制 排序 怎样 执行 。 通 过 修 
改 max_length_for_sort_data 变 量 ( 约 的 值 ， 可 以 影响 MySQL 选 择 哪 种 
排序 算法 。 因 为 single-pass 算 法 为 每 行 需要 排序 的 数据 创建 一 个 固定 大 
小 的 缓冲 ， 对 于 VARCHAR 列 ， 在 和 max_length_for_sort_data 比 较 时 ， 
使 用 的 是 其 定义 的 最 大 长 度 ， 而 不 是 所 存储 数据 的 实际 长 度 。 这 也 是 为 
什么 我 们 建议 只 选择 必要 的 列 的 一 个 原因 。 


当 MySQL 必 须 排序 BL0B 或 TEXT 字 段 时 ， 它 只 会 使 用 前 经， 然后 名 
略 剩 下 部 分 的 值 。 这 是 因为 缓冲 只 能 分 配 固定 大 小 的 结构 体 来 保存 要 排 
序 的 值 ， 然 后 从 扩展 存储 空间 中 复制 前 级 到 这 个 结构 体 中 。 使 
用 max_sort_length 变 量 可 以 指定 这 个 前 级 有 多 大 。 





可 惜 ，MySQL 无 法 查看 它 用 了 哪个 算法 。 如 有 条 增加 了 
max_length_for_sort_data 变 量 的 值 ， 人 磁盘 使 用 率 上 升 了 ，CPU 使 用 率 
下 降 了 ， 并 且 Sort_merge_passes 状 态 变 量 相 对 于 修改 之 前 开始 很 快 地 
上 升 ， 也 许 是 强制 让 很 多 的 排序 使 用 了 single-pass 算 法 。 


8.8 ”完成 基本 配置 


我 们 已 经 完成 了 服务 器 内 核 的 旅程 一 一 希望 你 喜欢 这 个 旅程 ! 现在 
让 我 们 回 到 示例 配置 ， 并 且 看 下 怎样 修改 剩 下 的 配置 。 





我 们 已 经 讨论 了 怎样 设置 一 般 的 选项 ， 例 如 数据 目录 、InnoDB 和 
MyISAM 绥 存 、 日 志 ， 还 有 其 他 的 一 些 。 让 我 们 重 温 剩 下 的 那些 : 


tmp_table size 和 和 max_heap table size 


这 两 个 设置 控制 使 用 Memory 引 擎 的 内 存 临 时 表 能 使 用 多 大 的 
内 存 。 如 果 隐 式 内 存 临 时 表 的 大 小 超过 这 两 个 设置 的 值 ， 将 会 被 转 
换 为 磁盘 MyISAM 表 ， 上 所 以 它 的 大 小 可 以 继续 增长 。《〈 隐 式 临 时 表 
古 一 种 并 非 由 上 自己 创建 ， 而 是 服务 器 创建 ， 用 于 保存 执行 中 的 碍 询 
的 中 间 结 果 的 表 。) 











应 该 简单 地 把 这 两 个 变量 设 为 同样 的 值 。 我 们 的 示例 配置 文件 
中 选择 了 32M。 这 可 能 不 够 ， 但 是 要 谨防 这 个 变量 太 大 了 。 临 时 表 
最 好 下 在 内 存 里 ， 但 是 如 果 它 们 被 撑 得 很 大 ， 实 际 上 还 是 让 它们 使 
用 磁盘 比较 好 ， 人 否则 可 能 会 让 服务 器 内 存 游 出 。 





假设 查询 语句 没有 创建 庞大 的 临时 表 (通常 可 以 通过 合理 的 索 
引 和 查询 设计 来 避免 ) ， 那 把 这 些 变量 设 大 一 点 ， 免 得 需要 把 内 存 
临时 表 转 换 为 磁盘 临时 表 。 这 个 过 程 可 以 在 SHOW PROCESSLIST 
中 看 到 。 


可 以 查看 服务 器 的 SHOW ”STATUS 计数 器 在 某 段 时 间 内 的 变化 ， 





以 此 来 得 看 创建 临时 表 的 频率 以 及 是 否 是 磁盘 临时 表 。 你 不 能 判断 
一 张 〈 临 时 〉 表 是 移 创 建 为 内 存 表 然 后 被 转换 为 了 磁盘 表 ， 还 是 一 
开始 就 创建 的 磁盘 表 ( 可 能 因为 有 BL0B 字 段 ，， 但 是 至 少 可 以 看 到 
创建 磁盘 临时 表 有 多 频繁 。 仔 细 检 查 Created_tmp_disk_tables 和 
Created tmp tables@ =. 








max connections 
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程序 油 增 的 连接 而 不 堪 重 员 。 如 果 应 用 程序 有 问题 ， 或 者 服务 器 遇 
到 如 连接 延迟 的 问题 ， 会 创建 很 多 新 连接 。 但 是 如 果 不 能 执行 得 
询 ， 那 打开 一 个 连接 没有 好 处 ， 所 以 被 “ 太 多 的 连接 ”的 错误 拒绝 是 
一 种 快速 而 代价 小 的 失败 方式 。 








把 max_connections 设 置 得 足够 高 ， 以 容纳 正常 可 能 达到 的 负 
载 ， 并 且 要 足够 安全 ， 能 保证 允许 你 登录 和 管理 服务 器 。 例 如 ， 若 
认为 正常 情况 将 有 300 或 者 更 多 连接 ， 则 可 以 设置 为 500 或 者 更 多 。 
如 果 不 知 道 将 会 有 多 少 连接 ，500 也 不 是 一 个 不 合理 的 起 点 。 默 认 
值 是 100， 对 大 部 分 应 用 来 说 这 都 不 够 。 





要 时 时 小 心 可 能 遇 到 连接 限制 的 突然 和 袭击。 例如， 大 重新 局 动 
应 用 服务 器 ， 可 能 没有 把 它 的 连接 关闭 干 站 ， 同 时 MySQL 可 能 没 

意识 到 它们 已 经 被 天 财 了 。 当 应 用 服务 喜 重 新 开始 运转 ， 并 试图 
打开 到 数据 库 的 连接 ， 就 可 能 由 于 挂 起 的 连接 还 没有 超时 ， 而 使 新 
连接 被 拒绝 。 








观察 Max_used_connections 状 态 变 量 随 着 时 间 的 变化 。 这 个 是 
高 水 位 标记 ， 可 以 告诉 你 服务 器 连接 是 不 是 在 某 个 时 间 点 有 个 尖 








峰 。 如 果 这 个 值 达到 了 max_connections， 说 明 客 户 端 至 少 被 拒绝 
了 一 次 ， 并 且 当 它 重 现 的 时 候 ， 应 该 使 用 第 3 章 中 的 技巧 来 抓 取 服 
务 器 的 活动 状态 。 


thread cache size 


设置 这 个 变量 ， 可 以 通过 观察 服务 器 一 段 时 间 的 活动 ， 来 计算 
一 个 有 理 有 据 的 值 。 观 察 Threads_connected 状 态 变 量 并 且 找 到 它 
在 一 般 情 况 下 的 最 大 值 和 最 小 值 。 你 也 许 希 望 把 线程 缓存 设置 得 足 
够 大 ， 以 在 高 峰 和 低谷 时 都 足够 ， 甚 至 可 能 更 大 方 一 些 ， 因 为 就 算 
设置 得 有 点 太 大 了 ， 一 般 也 不 是 大 问题 。 你 也 许可 以 设置 为 波动 范 
围 两 到 三 倍 的 大 小 。 例 如 ， 知 Threads_connected 状 态 从 150 变 化 到 
175， 可 以 设置 线程 缓存 为 75。 但 是 也 不 用 设置 得 非常 大 ， 因 为 保 
持 大 量 等 待 连接 的 空闲 线程 并 没有 什么 真正 的 用 处 。250 的 上 限 是 
个 不 错 的 估算 值 〈 或 者 256， 如 果 你 喜欢 2 的 次 方 。) 也 可 以 观察 
Threads_created 状 态 随 着 时 间 的 变化 。 如 果 这 个 值 很 大 或 者 一 直 
增长 ， 这 是 另 一 个 线索 ， 告 诉 你 可 能 需要 调 大 thread_cache_size 变 
量 。 查 看 Threads_cached 来 看 有 多 少 线程 已 经 在 缓存 中 了 。 

















一 个 相关 的 状态 变量 是 Slow_launch_threads。 这 个 状态 如 果 
是 个 很 大 的 值 ， 那 么 意味 着 某 些 情况 延迟 了 连接 分 配 新 线程 。 这 也 
是 个 线索 ， 可 能 服务 器 有 些 问 题 了 ， 但 是 不 能 明确 地 指出 是 哪 出 问 
题 了 。 一 般 来 说 ， 可 能 是 系统 过 载 了 ， 导 致 操作 系统 不 能 为 新 创建 
的 线程 调度 CPU。 这 不 是 说 你 就 需要 增加 线程 缓存 的 大 小 了 。 你 应 
该 诊断 这 个 问题 并 且 修 复 它 ， 而 不 是 用 缓存 来 掩盖 问题 ， 因 为 这 还 
可 能 导致 其 他 问题 。 














table cache_size 


这 个 缓存 (或 者 在 MySQL 5.1 中 被 分 成 两 个 缓存 区 ) 应 该 被 设 
置 得 足够 大 ， 以 避免 总 是 需要 重新 打开 和 重新 解析 表 的 定义 。 你 可 
以 通过 观察 0pen_tables 的 值 及 其 在 一 段 时 间 的 变化 来 检查 该 变 
量 。 如 果 你 看 到 0pened tables 每 秒 变 化 很 大 ， 那 么 table cache 值 
可 能 不 够 大 。 隐 式 临 时 表 也 可 能 导致 打开 表 的 数量 不 断 增长 ， 即 使 
表 绥 存 并 没有 用 满 ， 所 以 这 可 能 也 没什么 问题 。 














该 问题 的 线索 应 该 是 0pened _ tables 不 断 地 增长 ， 即 
使 0pen_tables 并 不 跟 table_cache_size 一 样 大 。 


里 然 表 缓存 很 有 用 ， 也 不 应 该 把 这 个 变量 设置 得 太 大 。 表 缓存 
可 能 在 两 种 情况 下 适得其反 。 





首先 ，MySQL 没 有 一 个 很 有 效 的 方法 来 检查 缓存 ， 所 以 如 果真 的 
太 大 了 ， 可 能 效率 会 下 降 。 在 大 部 分 情况 下 ， 不 应 该 把 它 设置 得 大 于 
10000， 或 者 是 10 240, MRE MHAZNNAAH I. C 


第 二 个 原因 是 有 些 类 型 的 工作 负载 是 不 能 缓存 的 。 如 果 工 作 负 载 不 
古 可 缓存 的 ， 不 管 把 缓存 设置 得 多 大 ， 任 何 访问 都 无 法 在 缓存 命中 ， 环 
记 缓 存 吧 ， 把 它 设置 为 0! 这 可 以 避免 情况 变 得 更 糟糕 ， 绥 存 不 命中 比 
昂贵 的 缓存 检查 后 再 不 命中 还 是 要 好 的 。 什 么 类 型 的 工作 负载 不 是 可 绥 
存 的 ?如 果 有 几 万 或 几 十 万 张 表 ， 并 且 它 们 都 很 均匀 地 被 使 用 ， 束 不 可 
能 把 它们 全 缓存 了 ， 最 好 把 这 个 变量 设 得 小 一 点 。 当 系统 上 有 数量 非常 
多 的 并 行 应 用 而 其 中 没有 一 个 是 非常 忙碌 的 ， 有 时 候 这 是 适当 的 。 











这 个 值 从 max_connections 的 10 倍 开始 设置 是 比较 有 道理 的 ， 但 是 
再 次 说 明 ， 在 大 部 分 场景 下 最 好 保持 在 10000 以 下 其 至 更 低 。 





还 有 其 他 一 些 类 型 的 设置 可 能 经 常会 包含 在 配置 文件 中 ， 包 括 二 进 


Si 





制 日 志 以 及 复制 设置 。 二 进 制 日 志 对 恢复 到 茶 个 时 间 点 ， 以 及 复制 是 非 
常 有 用 的 ， 另 外 复制 还 有 一 些 它 自己 的 设置 。 我 们 会 在 本 书后 面 的 章节 
中 履 关 复制 和 备份 的 重要 设置 。 


89 ”安全 和 稳定 的 设置 


基本 配置 设置 到 位 后 ， 可 能 希望 局 用 一 些 使 服务 器 更 安全 和 更 可 靠 
的 设置 。 它 们 中 的 一 些 会 影响 性 能 ， 因 为 保证 安全 性 和 可 靠 性 往往 要 付 
出 一 些 代价 。 有 些 人 意识 到 了 : 他 们 能 阻止 思 面 的 错误 发 生 ， 比 如 把 无 
意义 的 数据 插入 服务 器 ， 以 及 一 些 变 动 在 日 常 操作 中 没有 喻 区 别 ， 只 十 
在 很 边缘 的 情况 防止 糟糕 的 事情 发 生 。 








让 我 们 首先 来 看 看 收集 的 一 些 对 一 般 服务 器 都 有 用 的 配置 项 : 
expire_logs days 


如 果 启 用 了 二 进 制 日 志 ， 应 该 打开 这 个 选项 ， 可 以 让 服务 器 在 
指定 的 天 数 之 后 清理 旧 的 二 进 制 日 志 。 如 果 不 启用 ， 最 终 服务 器 的 
空间 会 被 耗 尽 ， 导 致 服务 器 卡 住 或 崩溃 。 我 们 建议 把 这 个 选项 设置 
得 足够 从 两 个 备份 之 前 恢复 (在 最 近 的 备份 失败 的 情况 下 ) 。 即 使 
每 天 都 做 备份 ， 还 是 建议 留 下 7 一 14 天 的 二 进 制 日 志 。 从 我 们 的 经 
验 来 看 ， 当 遇 到 一 些 不 常见 的 问题 时 ， 你 会 感谢 有 这 一 两 个 星期 的 
二 进 制 日 志 。 例 如 重 搭 一 个 备 机 再 次 尝试 赶 上 主 库 。 应 该 保持 足够 
多 的 二 进 制 日 志 ， 遇 到 这 些 情况 时 可 以 给 自己 一 些 呼吸 的 空间 。 





max_allowed packet 


这 个 设置 防止 服务 器 发 送 太 大 的 包 ， 也 会 控制 多 大 的 包 可 以 被 
接收 。 默 认 值 可 能 太 小 了 ， 但 设置 得 太 大 也 可 能 有 和 危险。 如 宋 设 置 
得 太 小 ， 有 时 复制 上 会 出 问题 ， 通 常 表现 为 备 库 不 能 接收 主 库 肥 过 


来 的 复制 数据 。 你 也 许 需 要 增加 这 个 设置 到 16MB 或 者 更 大 。 这 些 
文档 里 没有 ， 但 这 个 选项 也 控制 在 一 个 用 户 定义 的 变量 的 最 大 值 ， 
所 以 如 果 需 要 非常 大 的 变量 ， 要 小 心 一 一 如 果 超 过 这 个 变量 的 大 
小 ， 它 们 可 能 被 截断 或 者 设置 为 NULL。 





max_connect_errors 


如 果 有 时 网 络 短暂 抽风 了 ， 或 者 应 用 配置 出 现 错误 ， 或 者 有 为 
外 的 问题 ， 如 权限 ， 在 短暂 的 时 间 内 不 断 地 尝试 连接 ， 客 户 端 可 能 
被 列 入 黑 名 单 ， 然 后 将 无 法 连接 ， 直 到 再 次 刷新 主机 缓存 。 这 个 选 
项 的 默认 设置 太 小 了 ， 很 容易 导致 问题 。 你 也 许 希 望 增 加 这 个 值 ， 
实际 上 ， 如 果 知 道 服务 器 可 以 充分 抵御 蛋 力 攻击 ， 可 以 把 这 个 值 设 
得 非常 大 ， 以 有 效 地 禁用 主机 黑 名 单 。 








skip_name_resolve 


这 个 选项 禁用 了 男 一 个 网 络 相 关 和 鉴 权 认证 相关 的 陷阱 : DNS 
得 找 。DNS 是 MySQL 连 接 过 程 中 的 一 个 薄弱 环节 。 当 连接 服务 器 
时 ， 默 认 情 况 下 ， 它 试图 确定 连接 和 使 用 的 主机 的 主机 名 ， 作 为 号 
份 验证 凭据 的 一 部 分 。《〈 就 是 说 ， 你 的 凭据 是 用 户 名 ， 主 机 名 、 以 
及 密码 一 一 并 不 只 是 用 户 名 和 密码 ) 但 是 验证 主机 来 源 ， 服 务 器 需 
要 执行 DNS 的 正 同 和 反 回 和 查找。 要 是 DNS 有 问题 承 悲 剧 了 ， 在 某 些 
时 间 点 这 是 必然 的 事 。 当 发 生 这 样 的 情况 时 ， 所 有 事 都 会 堆积 起 
来 ， 最 终 导 致 连接 超时 。 为 了 避免 这 种 情况 ， 我 们 强烈 建议 设置 这 
个 选项 ， 在 验证 时 关闭 DNS 碍 找 。 然 而 ， 如 果 这 人 么 做 ， 需 要 把 基于 
主机 名 的 授权 改 为 用 IP 地 址 、 通 配 符 ， 或 者 特定 主机 
名 “localhost*”， 因 为 基于 主机 名 的 账号 会 被 禁用 。 








sql_mode 





这 个 设置 可 以 接受 多 种 多 样 的 值 来 改变 服务 器 行为 。 我 们 不 建 
议 只 是 为 了 好 玩 而 改变 这 个 值 ， 最 好 在 大 多 数 情况 下 让 MySQL 像 
MySQL， 不 要 尝试 让 它 的 行为 像 其 他 数据 库 服务 器 。〔 许 多 客户 
端 和 图 形 界面 工具 ， 除 了 MySQL 还 有 它们 自己 的 SQL 方 言 ， 例 如 ， 
若 修改 它 用 更 符合 ANSI 的 SQL， 有 些 操作 会 没 法 做 。) Ail, A 
些 选 项 值 是 很 有 用 的 ， 有 些 在 具体 情况 可 能 是 值得 考虑 的 。 建 议 碍 
看 文档 中 下 面 这 些 选 项 ， 并 且 考 虑 使 用 它们 ; 
STRICT_TRANS_TABLES、 ERROR FOR_DIVISION_BY_ZERO、 
NO_AUTO_CREATE_USER, NO_AUTO_VALUE_ON ZERO, 
NO_ENGINE SUBSTITUTION, NO ZERO DATE, NO_ZERO_IN DATE#I 
ONLY FULL_GROUP_BY. 




















然而 ， 要 意识 到 对 已 经 存在 的 应 用 修改 这 些 设置 值 可 不 是 个 好 
主意 ， 因 为 这 么 做 可 能 让 服务 器 跟 应 用 预期 不 兼容 。 人 们 不 经 意 间 
写 的 查询 中 应 用 的 列 不 在 GROUP BY 中 ， 或 者 使 用 聚合 函数 ， 这 种 
情况 非常 常见 ， 例 如 ， 若 想 打 开 ONLY_FULL_GROUP_BY 选 项 ， 

最 好 首先 在 开发 或 未 上 线 服 务 器 上 做 一 下 测试 ， 一 旦 要 在 生产 环境 
部 署 则 必须 确认 所 有 地 方 都 可 以 工作 。 





sysdate_is_now 


eA TY ESE BS MH UI RAT. (AMR AS 
征明 确 需要 SYSDATE 0 函数 的 非 确定 性 行为 〈 非 确定 性 行为 可 能 会 
导致 复制 中 断 或 者 使 得 基于 时 间 点 的 备份 恢复 结 末 不 可 信 ) ， 那 么 
你 可 能 希望 打开 该 选项 以 确保 SYSDATE () 函数 有 确定 的 行为 。 








下 面 的 选项 可 以 控制 复制 行为 ， 并 且 对 防止 备 库 出 问题 非常 有 大 
H): 


read_only 





这 个 选项 禁止 没有 特权 的 用 户 在 备 库 做 变更 ， 只 接受 从 主 库 传 
和 输 过 来 的 变更 ， 不 接受 从 应 用 来 的 变更 。 我 们 强烈 建议 把 备 库 设 置 
为 只 读 模式 。 


skip_slave start 


这 个 选项 阻止 MySQL 试 图 上 自动 局 动 复 制 。 因 为 在 不 安全 的 裔 
涡 或 其 他 问题 后 ， 局 动 复制 是 不 安全 的 ， 所 以 需要 茶 用 目 动 局 动 ， 
用 户 需 要 手动 检查 服务 器 ， 并 确定 它 是 安全 的 之 后 再 开始 复制 。 











slave_net_timeout 


这 个 选项 控制 备 库 发 现 跟 主 库 的 连接 已 经 失败 并 且 需 要 重 连 之 
前 等 待 的 时 间 。 默 认 值 是 一 个 小 时 ， 太 长 了 。 设 置 为 一 分 钟 或 更 


Fla 
sync_master_info, sync relay log、 sync_relay_log info 


这 些 选项 ， 在 MySQL 5.5 以 及 更 新 版 本 中 可 用 ， 解决 了 复制 中 
备 库 长 期 存在 的 问题 : 不 把 它们 的 状态 文件 同步 到 磁盘 ， 所 以 服务 
器 骨 涡 后 可 能 需要 人 来 猜测 复制 的 位 置 实际 上 在 主 库 是 哪个 位 置 ， 
并 且 可 能 在 中 继 日 志 (Relay Log) 里 有 损坏 。 这 些 选 项 使 得 备 库 裔 
涡 后 ， 更 容易 从 骨 涡 中 恢复 。 这 些 选 项 默认 是 不 打开 的 ， 因 为 它们 
会 导致 备 库 额外 的 fsync O 操作 ， 可 能 会 降低 性 能 。 如 果 有 很 好 的 








硬件， 我 们 建议 打开 这 些 选项 ， 如 果 复 制 中 出 现 fsync 0 造成 的 延 
时 间 题 ， 就 应 该 关闭 它们 。 





Percona Server 中 有 一 种 侵入 性 更 小 的 方式 来 做 这 些 工作 ， 即 打 
开 innodb overwrite relay log _info 选 项 。 这 可 以 让 InnoDB 在 事 
务 日 志 中 存储 复制 的 位 置 ， 这 是 完全 事务 化 的 ， 并 且 不 需要 任何 额 
外 的 fsync 0 操作。 在 骨 演 恢复 期 间 ， InnoDB 会 检查 复制 的 元 信息 
文件 ， 如 果 文 件 过 期 了 束 更 新 为 正确 的 位 置 。 





8.10 “高 级 InnoDB 设 置 


回 到 第 1 章 我 们 讨论 的 InnoDB 历 史 : 首先 是 内 建 built-in) 的 版 
本 ， 然 后 有 了 两 个 有 效 版 本 ， 现 在 更 新 的 版 本 再 次 变 成 了 一 个 。 更 新 的 
InnoDB 代 码 有 更 多 的 功能 和 非常 好 的 扩展 性 。 如 果 正 在 使 用 MySQL 
5.1， 应 该 明确 地 配置 MySQL 忽 略 旧版 本 的 InnoDB 而 使 用 新 版 的 。 这 将 
极 大 地 提升 服务 器 性 能 。 需 要 打开 ignore_bui1tin_innodb 选 项 ， 然 后 
配置 plugin_load 选 项 把 InnoDB 作 为 插件 打开 。 建 议 参考 InnoDB 文 档 中 
对 应 平台 上 的 扩展 语法 2 。 


对 于 新 版 本 的 InnoDB， 有 一 些 新 的 选项 可 以 用 。 如 果 局 用 ， 它 们 
中 有 些 对 服务 器 性 能 相当 重要 ， 也 有 一 些 安全 性 和 稳定 性 的 选项 ， 如 下 
所 示 。 


innodb 








这 个 看 似 平淡 无 奇 的 选项 实际 上 非常 重要 ， 如 果 把 这 个 值 设 置 
为 FORCE， 只 有 在 InnoDB 可 以 局 动 时 ， 服 务 器 才 会 启动 。 如 果 使 用 
InnoDB 作 为 默认 存储 引擎 ， 这 一 定 是 你 期 望 的 结果 。 你 应 该 不 会 
希望 在 mnoDB 失 败 〈 例 如 因为 错误 的 配置 而 导致 的 不 可 启动 ) 的 
情况 下 启动 服务 器 ， 因 为 写 的 不 好 的 应 用 可 能 之 后 会 连接 到 服务 
器 ， 导 致 一 些 无 法 预知 的 损失 和 混乱 。 最 好 是 整个 服务 器 都 失败 ， 
强制 你 必须 查看 错误 日 志 ， 而 不 是 以 为 服务 器 正常 启动 了 。 








innodb_autoinc_lock_mode 


这 个 选项 控制 mnoDB 如 何 生成 自 增 主键 值 ， 某 些 情况 下 ， 例 
如 高 并 发 插入 时 ， 目 增 主键 可 能 是 个 瓶颈 。 如 果 有 很 多 事务 等 待 
增 锁 (可 以 在 SHOW ENGINE INNODB STATUS 里 看 到 ) ， 应 该 审视 这 
个 变量 的 设置 。 手 册 上 已 经 详细 解释 了 该 选项 的 行为 ， 在 此 我 们 就 
不 再 重复 了 。 














innodb buffer_pool_ instances 


这 个 选项 在 MySQL 5.5 和 更 新 的 版 本 中 出 现 ， 可 以 把 缓冲 池 切 
分 为 多 段 ， 这 可 能 是 在 高 负载 的 多 核 机 器 上 提升 MySQL 可 扩展 性 
最 重要 的 一 个 方式 了 。 多 个 缓冲 池 分 散 了 工作 压力 ， 所 以 一 些 全 局 
Mnutex 竞 争 就 没有 那么 大 了 。 





目前 尚 不 清楚 什么 情况 下 应 该 选择 多 个 缓冲 池 实 例 。 我 们 运行 
过 八 个 实例 的 基准 ， 但 是 直到 MySQL 5.5 已 经 广泛 部 署 了 很 长 一 段 
时 间 ， 我 们 依然 不 明白 多 个 缓冲 池 实 例 的 一 些微 妙 之 处 。 














我 们 不 是 暗示 MySQL 5.5 没 有 在 生产 环境 广泛 部 署 。 只 是 对 我 
们 已 经 帮助 解决 过 的 大 部 分 互 斥 锁 相 互 争 用 的 极端 场景 的 用 户 来 
说 ， 升 级 可 能 需要 很 多 个 月 的 时 间 来 计划 、 验 证 ， 并 执行 。 这 些 用 
户 有 时 运行 着 高 度 定 制 化 的 MySQL 版 本 ， 使 得 更 加 倍 谨慎 地 对 待 
升级 。 当 越 来 越 多 的 这 类 用 户 升 级 到 MySQL 5.5， 并 以 他 们 独特 的 
方式 进行 压力 验证 ， 我 们 可 能 会 学 到 关于 多 缓冲 池 的 一 些 我 们 没 见 
过 的 有 趣 的 事情 。 也 许 直 到 那 时 ， 我 们 才 可 以 说 运行 八 个 缓冲 池 实 
例 是 非常 有 益 的 。 











值得 注意 的 是 Percona ， Server 用 了 不 同 的 方法 来 解决 mnoDB 互 
斥 锁 争 用 问题 。 相 对 于 把 缓冲 池 分 成 多 个 一 一 一 个 在 许多 像 


InnoDB 的 系统 下 经 过 检验 无 可 否认 的 方法 一 一 我 们 选择 把 一 些 全 
局 Mutex 拆 分 为 更 细 、 更 专用 的 Mutex。 我 们 的 测试 显示 最 好 的 方 
式 是 结合 这 两 种 方法 ， 在 Percona Server 5.5 版 本 中 已 经 可 用 了 : 多 
缓冲 区 和 更 细 粒 度 的 锁 。 


innodb_io_capacity 


InnoDB 曾经 在 代码 里 写 死 了 假设 服务 器 运行 在 每 秒 100 个 WO 操 
作 的 单 硬盘 上 。 默 认 值 很 糟糕 。 现 在 可 以 告诉 InnoDB 服 务 器 有 多 
大 的 IO 能 力 。InnoDB 有 时 需要 把 这 个 设置 得 相当 高 〈 在 像 PCI-E 
SSD 这 样 极 快 的 存储 设备 上 需要 设置 为 上 万 ) 才能 稳定 地 刷新 脏 
页 ， 原 因 解 释 起 来 相当 复杂 。 





innodb read io _ threads 和 innodb write _ io threads 


这 些 选项 控制 有 多 少 后 台 线 程 可 以 被 WO 操作 使 用 。 最 近 版 本 
的 MySQL 里 ， 默 认 值 是 4 个 读 线程 和 4 个 写 线程 ， 对 大 部 分 服务 器 
这 都 足够 了 ， 尤 其 是 MySQL 5.5 里 面 可 以 用 操作 系统 原生 的 异步 W/O 
以 后 。 如 果 有 很 多 硬盘 并 且 工 作 负载 并 发 很 大 ， 可 以 发 现 这 些 线程 
很 难 跟 上 ， 这 种 情况 下 可 以 增加 线程 数 ， 或 者 可 以 简单 地 把 这 个 选 
项 的 值 设 置 为 可 以 提供 IO 能 力 的 磁盘 数量 〈 即 使 后 面 是 一 个 RAID 
控制 器 )〉。 








innodb_strict_mode 
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效 的 或 者 可 能 有 风险 的 CREATE TABLE 选 项。 如 果 打 开 这 个 设置 ， 就 
必然 会 检查 所 有 CREATE TABLE 选 项， 因为 它 不 会 让 你 创建 一 些 用 起 








来 比较 爽 (但 是 有 隐患 ) WR. ANA AEN, ATRI. %5 
尝试 恢复 备份 时 可 能 就 不 希望 打开 这 个 选项 了 。 


innodb_old blocks time 


InnoDB 有 个 两 段 缓冲 池 LRU (最 近 最 少 使 用 ) EKR, wit H 
的 是 防止 换 出 长 期 使 用 很 多 次 的 页 面 。 像 mysqldump 产 生 的 这 种 一 
次 性 的 〈 大 ) 得 询 ， 通 单 会 读 取 页 面 到 缓冲 池 的 LRU 列 表 ， 从 中 恋 
取 需 要 的 行 ， 然 后 移动 到 下 一 页 。 理 论 上 ， 两 段 LRU 链 表 将 阻止 此 
页 取代 很 长 一 段 时 间 内 都 需要 用 到 的 页 面 被 放 入 “年 轻 
(Young) ” 子 链表 ， 并 且 只 在 它 已 被 浏览 过 多 次 后 将 其 移动 到 “年 
老 (Old) * 子 链表 。 但 是 InnoDB 默 认 没 有 配置 为 防止 这 种 情况 ， 
为 页 内 有 很 多 行 ， 所 以 从 页 面 读 取 的 行 的 多 次 访问 ， 会 导致 它 立 即 
被 转移 到 “年 老 (Old) ” 子 链表 ， 对 那些 需要 长 时 间 绥 存 的 页 面 带 
来 换 出 的 压力 。 





这 个 变量 指定 一 个 页 面 从 LRU 链 表 的 “年 轻 * 部 分 转移 到 “年 
ET ZA DAMA Ne. ERT PERE AO, KERN 
诸如 1000 坚 秒 《〈 一 秒 ) 这 样 的 小 一 点 的 值 ， 在 我 们 的 基准 测试 中 已 
被 证 明 非 常 有 效 。 





Ik 


8.11 总 结 


在 阅读 完 这 一 半 节 之 后 ， 你 应 该 有 了 一 个 比 默认 设置 好 得 多 的 服务 
需 配 置 。 服 务 器 应 该 更 快 更 稳定 了 ， 并 且 除 非 运行 出 现 了 罕见 的 状况 ， 
都 应 该 没有 必要 再 去 做 优化 配置 的 工作 了 。 





复习 一 下 ， 我 们 建议 从 参考 示例 配置 文件 开始 ， 设 置 符合 服务 器 和 
工作 负载 的 基本 选项 ， 增 加 安全 性 和 完整 性 所 需 的 选项 ， 并 且 ， 如 果 合 
适 的 话 ， 在 MySQL 5.5 中 配置 新 版 的 mnoDB Plugin 才 有 的 配置 项 。 这 就 
是 关于 优化 服务 器 配置 所 需要 做 的 全 部 的 事情 。 


如 果 使 用 的 是 ImnoDB， 最 重要 的 选项 是 下 和 面 这 两 个 : 


e innodb buffer pool size 


e innodb_log file size 


恭喜 你 一 一 你 解决 了 我 们 见 过 的 真实 存在 的 配置 问题 中 的 绝 大 部 
分 ! 如 果 使 用 我 们 的 在 线 配置 工具 http:Mools.percona.com， 对 这 些 问 题 
和 其 他 配置 选项 的 使 用 ， 会 得 到 很 好 的 建议 。 











我 们 也 提出 了 很 多 关于 不 要 做 什么 的 建议 。 其 中 最 重要 的 是 不 
要 “ 调 优 ”服务 器 ;不 要 使 用 比率 、 公 式 或 “ 调 优 脚本 ”作为 设置 配置 变量 
的 基础 ， 不 要 信任 来 自 互 联网 上 的 不 明 身 份 的 人 的 意见 ， 不 要 为 了 看 起 
来 很 糟糕 的 事情 去 不 断 地 刷 SHOW STATUS。 如 果 有 些 设 置 其 实 是 错误 
的 ， 在 剖析 服务 器 性 能 时 也 会 展现 出 来 。 











有 几 个 重要 的 设置 没有 在 本 章 讨 论 ， 主 要 是 因为 它们 是 为 特定 类 型 


的 硬件 和 工作 负载 服务 的 。 我 们 暂 不 讨论 这 些 设 置 ， 因 为 我 们 相信 ， 任 
何 关 于 怎样 设置 的 意见 ， 痢 需要 与 内 部 流程 的 解释 工作 一 起 来 做 。 这 给 
我 们 带 来 了 下 一 革 ， 它 会 告诉 你 如 何 优化 MySQL 的 硬件 和 操作 系统 ， 
反之 亦 然 。 














O 我 们 见 过 的 一 个 常见 的 错误 是 ， 配 置 一 台新 服务 器 的 内 存 是 男 一 台 已 经 存在 的 服务 器 的 
两 倍 ， 并 且 一 一 使 用 旧 服 务 器 的 配置 作为 基线 一 一 创建 一 份 新 的 配置 ， 只 是 简单 地 在 旧 服 务 器 
的 配置 上 乘 以 2。 这 不 起 作用 。 

D “如果 你 还 是 不 相信 * 按 比率 调 优 ”的 方法 是 错误 的 ， 请 阅读 Cary Millsap 的 Optimizing 
Oracle Performance (COReilly 出 版 ) 。 他 甚至 为 这 个 主题 专门 写 了 一 个 附录 ， 提 供 了 一 个 可 以 智 
能 地 产生 任何 你 想 要 的 命中 率 的 工具 ， 甚 至 不 管 系统 正 运行 得 多 么 粳 糕 都 可 以 做 到 很 好 的 命中 
率 ! 当然 ， 这 一 切 的 目的 都 是 为 了 说 明 比 率 是 多 么 无 用 。 

(3) 一 个 例外 : 我 们 维护 了 一 个 (好 用 的 ) 免费 的 在 线 配置 工具 ， 
在 http:/tools.percona.com。 是 的 ， 我 们 确实 有 倾向 性 。 


(4) B: GOW) 查询 是 如 何 形成 的 ? 答 : 这 需要 去 问 那些 杀 死 了 坏 查 询 的 DBA 是 怎么 回 
事 ， 碍 询 本 身 是 不 可 能 回击 的 。 
(5) ”Percona 当 然 认 为 在 Percona 邮 件 组 能 找到 真正 的 专家 ， 所 以 说 他 们 不 能 中 表 。 一 一 译 者 
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注 








(6) H: 为 排序 缓存 (Sort Buffer) 和 读 缓存 (Read Buffer) 设置 大 小 的 选项 在 哪 ? 答 : 它 
们 已 经 很 专注 自己 的 事情 了 ， 除 非 觉得 默认 值 不 够 好 ， 和 否则 保留 默认 值 就 可 以 了 。 
(7) InnoDB 在 5.1/5.5 中 都 不 支持 全 文 索引 ， 直 到 5.6 版 本 InnoDB 才 支持 全 文 索引 。 一 一 译 者 

















注 
(8) 例如 Join Buffer/Sort Buffer 等 。 一 一 译 者 注 
(9) 这 个 功能 是 Dump/Restore of the Buffer Pool， 详 情 查 


看 : http:/www.percona.com/doc/percona-server/5.5/management/innodb_lru_dump_restore.html。 
一 一 译 者 注 
(10) 当然 还 要 排除 各 种 操作 系统 自身 占用 的 内 存 ， 还 有 MySQL 自 喘 占 用 的 内 存 等 。 一 一 详 
者 注 
(11) 理论 上 ， 如 果 能 确认 原生 4KB 的 数据 依然 在 操作 系统 缓存 中 ， 读 操作 就 不 需要 了 。 然 
而 ， 你 没 法 控制 操作 系统 把 哪些 块 放 到 缓存 中 。 通 过 fncore 工 具 可 以 看 到 哪些 块 在 缓存 中 ， 地 址 



























































Æ: http://net.doit.wisc.edu/~plonka/fncore/. 

(12) “打开 的 表 (Opened Table) ”的 概念 ， 可 能 有 点 混乱 。 当 不 同 的 查询 同时 访问 一 张 表 ， 
或 者 是 一 个 单独 的 查询 引用 同一 张 表 超 过 一 次 ， 比 如 子 查询 或 者 自 关 联 ，MySQL 都 会 对 一 张 表 
作为 打开 状态 多 次 计数 。MyISAM 表 的 索引 文件 包含 一 个 计数 器 ，MyISAM 表 打开 时 递增 ， 关 
闭 时 递减 。 这 使 得 对 于 MyISAM 表 可 以 看 到 是 不 是 关闭 干净 了 : 如 果 首 次 打开 一 个 表 ， 计 数 器 
不 为 零 ， 说 明 表 没有 关闭 干净 。 

(13) 对 于 好 奇 的 人 ，Percona Server 的 innodb_recovery_stats 选 项 可 以 帮助 你 从 执行 崩 尝 恢 
复 的 立场 来 理解 服务 器 的 工作 负载 。 

(14) 我 们 说 的 是 基于 旋转 盘 片 的 机 械 磁 盘 ， 不 是 SSD 盘 ， 它 们 的 性 能 特点 完全 不 一 样 。 

(15) RAID 卡 的 预 读 控制 必须 在 RAID 卡 的 设置 中 调整 。 一 一 译 者 注 

(16) 就 是 写 入 会 在 RAID 卡 缓存 上 进行 缓冲 ， 不 直接 写 到 硬盘 。 一 一 译 者 注 

(17) 请 注意 ， 这 种 实现 思路 是 一 个 存在 很 多 争议 的 话题 ， 请 看 MySQL 的 bug 60776 来 获得 更 
多 细节 信息 

(18) 表 可 能 因为 多 种 原因 被 关闭 。 例 如 ， 服 务 器 因为 表 绥 存 没有 空间 了 束 会 关闭 表 ， 或 者 
有 人 执行 了 FLUSH TABLES。 

aD) ”一些 Debian 系 统 会 自动 做 这 些 事 ， 像 一 个 钟 摆 的 摆动 ， 朝 着 不 同 的 方向 不 停 地 摇摆 。 
只 是 把 这 个 行为 配置 为 Debian 默 认 做 的 事 不 是 一 个 好 主意 ， 应 该 由 DBA 来 决定 。 

(20) 事实 上 ， 在 某 些 工作 负载 下 ， 并 发 限制 实现 可 能 自己 就 成 为 了 系统 的 瓶 颈 ， 所 以 有 时 
需要 打开 ， 但 另 一 些 时 候 它 需要 关闭 。 性 能 分 析 会 告诉 你 该 怎么 做 。 

(21) 最 近 版 本 的 Percona Server 对 某 些 场景 消除 了 这 个 限制 。 

(22) 如 果 操 作 系 统 把 它 交换 (Swap) 出 内 存 ， 数 据 依 然 会 到 磁盘 。 

(23) 这 个 长 度 足 够 在 列 上 创建 一 个 255 字 符 的 索引 ， 即 使 是 utf8 的 《每 个 字符 可 能 需要 三 个 
FT) 。 前 缀 是 mnoDB 的 Antelope 文 件 格式 特有 的 ，MySQL 5.1 和 更 新 版 本 中 的 Barracuda 格 式 
(默认 不 打开 的 ) 没有 前 绥 。 

(24) 在 带 有 LIMIT 语 句 的 查询 中 ，MySQL 5.6 会 改变 排序 绥 冲 的 用 法 ， 并 且 会 修正 一 个 可 导 
致 执行 一 个 昂贵 的 安装 历程 而 使 用 庞大 的 排序 缓冲 的 问题 ， 所 以 如 果 升 级 到 了 MySQL 5.6， 需 
要 特别 小 心地 检查 这 些 设置 中 任何 自 定 义 的 设置 。 

(25) 你 听 说 过 一 个 关于 二 进 制 的 笑话 嘛 ? 世界 上 有 10 种 人 : 部 分 是 懂 二 进 制 的 ， 部 分 不 懂 
二 进 制 。 还 有 另外 10 种 人 : 一 些 认 为 二 进 制 /十 进 制 的 笑话 有 意思 ， 一 些 是 精 虫 上 脑 。 我 们 不 会 
说 我 们 是 否认 为 这 是 滑稽 的 。 

(26) 在 Percona Server 中 ， 只 有 一 个 版 本 的 InnoDB， 并 且 是 内 建 的 ， 所 以 你 不 需要 禁用 一 个 
版 本 然后 载 入 另 一 个 版 本 蔡 换 它 。 
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第 9 划 ”操作 系统 和 硬件 优化 


MySQL 服 务 器 性 能 受制 于 整个 系统 最 薄弱 的 环节 ， 承 载 它 的 操作 
系统 和 硬件 往往 是 限制 因素 。 破 盘 大 小 、 可 用 内 存 和 CPU 资源 、 网 络 ， 
以 及 所 有 连接 它们 的 组 件 ， 都 会 限制 系统 的 最 终 容量 。 因 此 ， 需 要 小 心 
地 选择 硬件 ， 并 对 硬件 和 操作 系统 进行 合适 的 配置 。 例 如 ， 知 工作 负载 
是 VO 密集 型 的 ， 一 种 方法 是 设计 应 用 程序 使 得 最 大 限度 地 减少 MySQL 
的 VO 操作 。 然 而 ， 更 聪明 的 方式 通常 是 升级 LO 子 系统 ， 安 六 更 多 的 内 
存 ， 或 重新 配置 现 有 的 磁盘 。 








人 硬件 的 更 新 换代 非常 迅速 ， 所 以 本 革 有 关 特 定 产 品 或 组 件 的 内 容 可 
能 将 很 快 变 得 过 时 。 像 往常 一 样 ， 我 们 的 目标 是 帮助 提升 对 这 些 概念 的 
理解 ， 这 样 对 于 即使 没有 直接 窗 盖 到 的 知识 也 可 以 举一反三 。 这 里 我 们 
将 通过 现 有 的 硬件 来 前 明 我 们 的 观点 。 


9.1 什么 限制 了 了 MySQL 的 性 能 


许多 不 同 的 硬件 都 可 以 影响 MySQL 的 性 能 ， 但 我 们 认为 最 常见 的 
两 个 瓶颈 是 CPU 和 IO 资源 。 当 数据 可 以 放 在 内 存 中 或 者 可 以 从 磁盘 中 
以 足够 快 的 速度 读 取 时 ，CPU 可 能 出 现 瓶 人 席 。 把 大 量 的 数据 集 完 全 放 到 
大 容量 的 内 存 中 ， 以 现在 的 硬件 条 件 完全 是 可 行 的 外。 


男 一 方面 ，VO 瓶 贷 ， 一 般 发 生 在 工作 所 需 的 数据 远 远 超过 有 效 内 


存 容量 的 时 候 。 如 果 应 用 程序 是 分 布 在 网 络 上 的 ， 或 者 如 果 有 大 量 的 查 
询 和 低 延 迟 的 要 求 ， 瓶 贷 可 能 转移 到 网 络 上 ， 而 不 再 是 磁盘 1/O 咏 。 











第 3 章 中 提 及 的 技巧 可 以 帮助 找到 系统 的 限制 因素 ， 但 即使 你 认为 
己 经 找到 了 瓶颈 ， 也 应 该 透 过 表象 去 看 更 深层 次 的 问题 。 东 一 方面 的 缺 
陷 常 常会 将 压力 施加 在 另 一 个 子 系统 ， 导 致 这 个 子 系统 出 问题 。 例 如 ， 
寿 没 有 足够 的 内 存 ，MySQL 可 能 必须 刷 出 缓存 来 腾 出 空间 给 需要 的 数 
据 一 一 然后 ， 过 了 一 小 会 ， 再 读 回 刚刚 刷新 的 数据 《〈 读 取 和 写 入 操作 都 
可 能 发 生 这 个 问题 )》。 本 来 是 内 存 不 足 ， 却 导致 出 现 了 IO 容量 不 足 。 
当 找到 一 个 限制 系统 性 能 的 因素 时 ， 应 该 问 问 目 己 ,“ 有 是 这 个 部 分 本 刁 
的 问题 ， 还 是 系统 中 其 他 不 合理 的 压力 转移 到 这 里 所 导致 的 ? ”在 第 3 章 
的 诊断 案例 中 也 有 讨论 到 这 个 问题 。 














还 有 另外 一 个 例子 : 内 存 总 线 的 瓶颈 也 可 能 表现 为 CPU 问题 。 事 实 
上 ， 我 们 说 一 个 应 用 程序 有 “CPU 瓶颈 ?或 者 是 “CPU 密集 型 ”， 真 正 的 意 
思 应 该 是 计算 的 瓶颈 。 接 下 来 将 深入 探讨 这 个 问题 。 


9.2 ”如 何 为 MySQL 选 择 CPU 


在 升级 当前 硬件 或 购买 新 的 硬件 时 ， 应 该 考虑 下 工作 负载 是 不 是 
CPU 密集 型 。 


可 以 通过 检查 CPU 利 用 率 来 判断 是 否 是 CPU 和 密集 型 的 工作 负载 ， 但 
是 仅 看 CPU 整体 的 负载 是 不 合理 的 ， 还 需要 看 看 CPU 使 用 率 和 大 多 数 重 
要 的 查询 的 IO 之 间 的 平衡 ， 并 注意 CPU 负载 是 否 分 配 均匀 。 本 章 稍 后 
讨论 的 工具 可 以 用 来 弄 清楚 是 什么 限制 了 服务 器 的 性 能 。 


9.2.1 哪个 更 好 : 更 快 的 CPU 还 是 更 
多 的 CPU 


当 遇 到 CPU 密集 型 的 工作 时 ，MySQL 通 常 可 以 从 更 快 的 CPU 中 获 益 
(相对 更 多 的 CPU) 。 





但 这 不 是 绝对 的 ， 因 为 还 依赖 于 负载 情况 和 CPU 数量 。 更 古老 的 
MySQL 版 本 在 多 CPU 上 有 扩展 性 问题 ， 即 使 新 版 本 也 不 能 对 单个 查询 
并 发 利用 多 个 CPU。 因 此 ，CPU 速 度 限 制 了 每 个 CPU 密集 型 查询 的 啊 应 
时 间 。 


当 我 们 讨论 CPU 的 时 候 ， 为 保证 本 文 易于 阅读 ， 对 茶 些 术语 将 不 会 
做 严格 的 定义 。 现 在 一 般 的 服务 器 通 名 都 有 多 个 插 槽 〈Socket) ， 每 个 
插 槽 上 都 可 以 插 一 个 有 多 个 核心 的 CPU《〈《 有 独立 的 执行 单元 ) ， 并 且 每 
个 核心 可 能 有 多 个 “硬件 线程 ”。 这 些 复杂 的 架构 需要 有 氮 耐 心 去 了 解 ， 





并 且 我 们 不 会 总 是 明确 地 区 分 它们 。 不 过 ， 在 一 般 情 况 下 ， 当 谈 到 CPU 
速度 的 时 候 ， 谈 论 的 其 实 是 执行 单元 的 速度 ， 当 提 到 的 CPU 数量 时 ， 指 
的 通常 是 在 操作 系统 上 看 到 的 数量 ， 尽 管 这 可 能 是 独立 的 执行 单元 数量 
HERO, 





这 几 年 CPU 在 各 个 方面 都 有 了 很 大 的 提升 。 例 如 ， 今 天 的 Intel CPU 
速度 远 远 超过 前 几 代 ， 这 得 益 于 像 直 接 内 存 连 接 (directly attached 
memory) 技术 以 及 PCIe 卡 之 类 的 设备 互联 上 的 改善 等 。 这 些 改进 对 于 
存储 设备 尤其 有 效 ， 例 如 Fusion-io 和 Virident 的 PCIe 闪 存 驱 动 器 。 








超 线程 的 效果 相 比 以 前 也 要 好 得 多 ， 现 在 操作 系统 也 更 了 解 如 何 更 
好 地 使 用 超 线程 。 而 以 前 版 本 的 操作 系统 无 法 识别 两 个 虚拟 处 理 器 实际 
上 是 在 同一 芯片 上 ， 认 为 它们 是 独立 的 ， 于 是 会 把 任务 安排 在 两 个 实际 
上 是 相同 物理 执行 单元 上 的 虚拟 处 理 器 。 实 际 上 单个 执行 单元 并 不 是 真 
的 可 以 在 同一 时 间 运 行 两 个 进程 ， 所 以 这 样 做 会 发 生 冲突 和 争夺 资源 。 
而 同时 其 他 CPU 却 可 能 在 闲置 ， 从 而 浪费 资源 。 操 作 系 统 需要 能 感知 超 
线程 ， 因 为 它 必须 知道 什么 时 候 执 行 单元 实际 上 是 有 内置 的 ， 然 后 切换 相 
应 的 任务 去 执行 。 这 个 问题 之 前 常见 的 原因 是 在 等 待 内 存 总 线 ， 可 能 花 
费 需 要 高 达 一 百 个 CPU 周期 ， 这 已 经 类 似 于 一 个 轻 量 级 的 IO 等 待 。 新 
的 操作 系统 在 这 方面 有 了 很 大 的 改善 。 超 线程 现在 已 经 工作 得 很 好 。 过 
去 ， 我 们 时 常 提醒 人 们 禁用 它 ， 但 现在 已 经 不 需要 这 样 做 了 。 

















这 就 是 说 ， 现 在 可 以 得 到 大 量 的 快速 的 CPU 一 -一 比 本 书 的 第 2 版 出 
版 的 时 候 要 多 得 多 。 所 以 多 和 快 哪个 更 重要 ? 一 般 来 说 两 个 都 想 要 。 从 
广义 上 来 说 ， 调 优 服 务 器 可 能 有 如 下 两 个 目标 : 





低 延 时 《快速 响应 ) 








要 做 到 这 一 点 ， 需 要 高 速 CPU， 因 为 每 个 查询 只 能 使 用 一 个 
CPU 。 


> 


art 


I 








如 采 能 同时 运行 很 多 得 询 语句 ， 则 可 以 从 多 个 CPU 处 理 碍 询 中 
受益 。 然 而 ， 在 实践 中 ， 还 要 取决 于 具体 情况 。 因 为 MySQL 还 不 
能 在 多 个 CPU 中 完美 地 扩展 ， 能 用 多 少 个 CPU 还 是 有 极限 的 。 在 旧 
版 本 的 MySQL 中 (MySQL 5.1 以 后 的 版 本 已 经 有 一 些 提 升 ) ， 这 个 
限制 非常 严重 。 在 新 的 版 本 中 ， 则 可 以 放心 地 扩展 到 16 或 24 个 
CPU， 或 者 更 多 ， 取 决 于 使 用 的 是 哪个 版 本 《Percona 往 往 在 这 方面 
略 占 优势 ) 。 





如 果 有 多 路 CPU， 并 且 没 有 并 发 执行 得 询 语句 ，MVySQL 依 然 可 以 
利用 额外 的 CPU 为 后 台 任 务 〈 例 如 清理 InnoDB 绥 冲 、 网 络 操作 ， 等 等 ) 
服务 。 然 而 ， 这 些 任务 通 癌 比 执行 查询 语句 更 加 轻 量 化 。 


MySQL fill (将 在 下 一 章 中 讨论 也 能 在 高 速 CPU 下 工作 得 非常 
好 ， 而 多 CPU 对 复制 的 帮助 却 不 大 。 如 果 工 作 负 载 是 CPU 密 集 型 ， 主 库 
上 的 并 发 任务 传递 到 备 库 以 后 会 被 简化 为 串 行 任务 ， 这 样 即使 备 库 人 硬件 
比 主 库 好 ， 也 可 能 无 法 保持 跟 主 库 之 间 的 同步 。 也 就 是 说 ， 备 库 的 瓶颈 
通常 是 IO 子 系统 ， 而 不 是 CPU。 


如 果 有 一 个 CPU 密集 型 的 工作 负载 ， 考 虑 是 需要 更 快 的 CPU 还 是 更 
多 CPU 的 另外 一 个 因素 是 查询 语句 实际 在 做 什么 。 在 硬件 层面 ， 一 个 碍 
询 可 以 在 执行 或 等 等。 处 于 等 待 状 态 常见 的 原因 是 在 运行 队列 中 等 待 
(进程 已 经 是 可 运行 状态 ， 但 所 有 的 CPU 都 忙 〉，、 等 待 门 锁 (Latch) 
或 锁 〈Lock) 、 等 待 磁盘 或 网 络 。 那 么 你 期 望 查 询 是 等 待 什么 呢 ? 如 果 

















等 待 门 锁 或 锁 ， 通 常 需 要 更 快 的 CPU; 如 果 在 运行 队列 中 等 待 ， 那 么 更 
多 或 者 更 快 的 CPU 都 可 能 有 帮助 。 (也 可 能 有 例外 ， 例 如 ， 查 询 等 待 
InnoDB 日 志 组 冲 区 的 Mutex， 直 到 IO 完成 前 都 不 会 释放 一 一 这 可 能 表明 
需要 更 多 的 VO 容量 ) 。 


这 就 是 说 ，MySQL 在 某 些 工作 负载 下 可 以 有 效 地 利用 很 多 CPU。 
例如 ， 假 设 有 很 多 连接 查询 的 是 不 同 表 【〈 假 设 这 些 碍 询 不 会 造成 表 锁 的 
竞争 ， 实 际 上 对 MyISAM 和 MEMORY 表 可 能 会 有 问题 ) ， 并 且 服 务 器 
的 总 吞吐 量 比 任何 单个 查询 的 响应 时 间 都 更 重要 。 理 吐 量 在 这 种 情况 下 
可 以 非常 高 ， 因 为 线程 可 以 同时 运行 而 互 不 争 用 。 




















再 次 说 明 ， 在 理论 上 这 可 能 更 好 地 工作 : 不 管 查 询 是 读 取 不 同 的 表 
还 是 相同 的 表 ， ”InnoDB 都 会 有 一 些 全 局 共享 的 数据 结构 ， 而 MyISAM 
在 每 个 缓冲 区 都 有 全 局 锁 。 而 且 不 仅仅 是 存储 引擎 ， 服 务 器 层 也 有 全 局 
锁 。 以 前 InnoDB 承 担 了 所 有 的 器 名 ,但 最 近 做 了 一 些 改进 后 ， 烘 露 了 
服务 器 层 中 的 其 他 瓶颈 。 例 如 臭名 昭著 的 LOCK_open 互 斥 量 
(Mutex) ， 在 MySQL 5.1 和 更 早 版 本 中 可 能 就 是 个 大 问题 ， 男 外 还 有 
其 他 一 些 服 务 器 级 别 的 互 斥 量 〈 例 如 查询 缓存 ) 。 





通 种 可 以 通过 堆栈 跟踪 来 诊断 这 些 类 型 的 竞争 问题 ， 例 如 Percona 
Toolkit 中 的 ptpmp 工 具 。 如 果 遇 到 这 样 的 问题 ， 可 能 需要 改变 服务 器 的 
配置 ， 禁 用 或 改变 引起 问题 的 组 件 ， 进 行 数 据 分 片 〈Sharding) ， 或 者 
通过 某 种 方式 改变 做 事 的 方法 。 这 里 无 法 列举 所 有 的 问题 和 相应 的 解雇 
方案 ,但 是 一 旦 有 一 个 确定 的 诊断 ， 答 案 通 常 是 显而易见 的 。 大 部 分 不 
幸 过 到 的 问题 都 是 边缘 场景 ， 最 常见 的 问题 随 着 时 间 的 推移 都 在 服务 器 
EWERT. 














9.2.2 CPU 架构 





可 能 99% 以 上 的 MySQL 实 例 〈 不 含 蔡 入 式 使 用 ) 都 运行 在 Intel 或 者 
AMD 心 片 的 x86 架 构 下 。 本 书 中 我 们 基本 都 是 针对 这 种 情况 。 














64 位 架构 现在 都 是 默认 的 了 ，32 位 CPU 已 经 很 难 买 到 了 。MySQL 
在 64 位 架构 上 工作 良好 ， 尽 管 有 些 事 暂 时 不 能 利用 64 位 架构 来 做 。 因 
此 ， 如 果 使 用 的 是 较 老 旧版 本 的 MySQL， 在 64 位 服务 器 上 可 能 要 小 
心 。 例 如 ， 在 MySQL 5.0 发 布 的 早期 时 候 ， 每 个 MyISAM 键 缓冲 区 被 限 
制 为 4 GB， 由 一 个 32 位 整数 负责 寻 址 。 〈 可 以 创建 多 个 键 缓冲 区 来 解决 


这 个 问题 。) 





确保 在 64 位 硬件 上 使 用 64 位 操作 系统 ! 最 近 这 种 情况 已 经 不 太 常 见 
了 ， 但 以 前 经 常 可 以 遇 到 ， 大 多 数 主机 托管 提供 商 暂 时 还 是 在 服务 器 上 
安装 32 位 操作 系统 ， 即 使 是 64 位 CPU。32 位 操作 系统 意味 着 不 能 使 用 大 
量 的 内 存 : 尽管 某 些 32 位 系统 可 以 文 持 大 量 的 内 存 ， 但 不 能 像 64 位 系统 
一 样 有 效 地 利用 ， 并 且 在 32 位 系统 上 ， 任 何 一 个 单独 的 进程 都 不 能 寻 址 
4GB 以 上 的 内 存 。 


9.2.3 扩展 到 多 个 CPU 和 核心 





多 CPU 在 联机 事务 处 理 〈OLTP) 系统 的 场景 中 非常 有 用 。 这 些 系 
统 通常 执行 许多 小 的 操作 ， 并 且 是 从 多 个 连接 发 起 请 求 ， 因 此 可 以 在 多 
个 CPU 上 运行 。 在 这 样 的 环境 中 ， 并 发 可 能 成 为 瓶颈 。 大 多 数 Web 应 用 
程序 都 属于 这 一 类 。 





OLTP 服 务 器 一 般 使 用 InnoDB， 尽 管 它 在 多 CPU 的 环境 中 还 存在 一 
些 未 解决 的 并 发 问题 。 然 而 ， 不 只 是 InnoDB 可 能 成 为 瓶颈 : 任何 共享 
资源 都 是 潜在 的 竞争 点 。InnoDB 之 所 以 获得 大 量 关 注 是 因为 它 是 高 
发 环境 下 最 常见 的 存储 引擎 ， 但 MyISAM 在 大 压力 时 的 表现 也 不 好 ， 即 
使 不 修改 任何 数据 只 是 读 取 数 据 也 是 如 此 。 许 多 并 发 瓶颈 ， 如 InnoDB 
的 行 级 锁 和 MyISAM 的 表 锁 ， 没 有 办 法 优化 一 一 除了 尽 可 能 快 地 处 理 任 
务 之 外 ， 没 有 别 的 办 法 解决 ， 这 样 ， 锁 就 可 以 尽快 分 配给 等 待 的 任务 。 
如 果 一 个 锁 是 造成 它们 (其 他 任务 〉 都 在 等 待 的 原因 ， 那 么 不 管 有 多 少 
CPU 都 一 样 。 因 此 ， 即 使 是 一 些 遍 并 发 工作 负载 ， 也 可 以 从 更 快 的 CPU 


中 受益 。 








EX 


实际 上 有 两 种 类 型 的 数据 库 并 及 问题 ， 需 要 不 同 的 方法 来 解决 ， 如 
下 所 示 。 


逻辑 并 发 问题 
应 用 程序 可 以 看 到 资源 的 竞争 ， 如 表 或 行 锁 争 用 。 这 些 问 题 通 


常 需 要 好 的 集 略 来 解决 ， 如 改变 应 用 程序 、 使 用 不 同 的 存储 引擎、 
改变 服务 器 的 配置 ， 或 使 用 不 同 的 锁定 提示 或 事务 隔离 级 别 。 


内 部 并 发 问题 


比如 信号 量 、 访 问 InnoDB 绥 冲 池 页 面 的 资源 争 用 ， 等 等 。 可 
以 尝试 通 过 改变 服务 器 的 设置 、 改 变 操作 系统 ， 或 使 用 不 同 的 便 件 
解决 这 些 问 题 ， 但 通常 只 能 缓解 而 无 法 彻底 消 炙 。 在 某 些 情况 下 ， 
使 用 不 同 的 存储 引擎 或 给 存储 引擎 打 补 丁 ， 可 以 帮助 缓解 这 些 问 


jel 





MySQL 的 “扩展 模式 ”是 指 它 可 以 有 效 利 用 的 CPU 数量 ， 以 及 在 压力 
不 断 增 长 的 情况 下 如 何 扩展 ， 这 同时 取决 于 工作 负载 和 系统 架构 。 通 
过 “系统 架构 ”的 手段 是 指 通过 调整 操作 系统 和 硬件 ， 而 不 是 通过 优化 使 
用 MySQL 的 应 用 程序 。CPU 架 构 〈RISC、CISC、 流 水 线 深 度 等 ) 、 
CPU 型 号 和 操作 系统 都 影响 MySQL 的 扩展 模式 。 这 也 是 为 什么 说 基准 
测试 是 非常 重要 的 : 一 些 系统 可 以 在 不 断 增 加 的 并 发 下 依然 运行 得 很 
好 ， 而 另 一 些 的 表现 则 糟糕 得 多 。 














有 些 系统 在 更 多 的 处 理 器 下 甚至 可 能 降低 整体 性 能 。 这 是 相当 普遍 
的 情况 ， 我 们 了 解 到 许多 人 试图 升级 到 有 多 个 CPU 的 系统 ， 最 后 只 能 被 
过 恢复 到 旧 系 统 ( 或 绑 定 MySQL 进 程 到 其 中 某 些 核心 ) ， 因 为 这 种 升 
级 反而 降低 了 性 能 。 在 MySQL 5.0 时 代 ，Google 的 补丁 和 Percona Server 
出 现 之 前 ， 能 有 效 利 用 的 CPU 核 数 是 4 核 ， 但 是 现在 甚至 可 以 看 到 操作 
系统 报告 多 达 80 个 “CPU” 的 服务 器 。 如 果 规 划一 个 大 的 升级 ， 必 须要 同 
时 考虑 硬件、 服务 器 版 本 和 工作 负载 。 








某 些 MySQL 扩 展 性 瓶 开 在 服务 器 层 ， 而 其 他 一 些 在 存储 引擎 层 。 
存储 引擎 是 怎么 设计 的 至 关 重 要 ， 有 时 更 换 到 一 个 不 同 的 引擎 就 可 以 从 
多 处 理 器 上 获得 更 多 效果 。 











我 们 看 到 在 世纪 之 交 围绕 处 理 器 速度 的 战争 在 一 定 程度 上 已 经 平 
息 ，CPU 厂 商 更 多 地 专注 于 多 核 CPU 和 多 线程 的 变化 。CPU 设 计 的 未 来 
很 可 能 是 数 百 个 处 理 器 核心 ， 四 核心 和 六 核心 的 CPU 在 今天 是 很 常见 
的 。 不 同 厂商 的 内 部 架构 差异 很 大 ， 不 可 能 概括 出 线程 、CPU 和 内 核 之 
间 的 相互 作用 。 内 存 和 总 线 如 何 设计 也 是 非常 重要 的 。 归 根 结 底 ， 多 个 
内 核 和 多 个 物理 CPU 哪 个 更 好 ， 这 是 由 硬件 体系 结构 决定 的 。 








现代 CPU 的 另外 两 个 复杂 之 处 也 值得 提 一 下 。 首 先是 频率 调整 。 这 





是 一 种 电源 管理 技术 ， 可 以 根据 CPU 上 的 压力 而 动态 地 改变 CPU 的 时 钟 
速度 。 问 题 是 ， 它 有 时 不 能 很 好 地 处 理 间 歇 性 突 发 的 短 碍 询 的 情况 ， 因 
为 操作 系统 可 能 需要 一 段 时 间 来 决定 CPU 的 时 钟 是 否 应 该 变化 。 结 果 ， 

查询 可 能 会 有 一 段 时 间 速 度 较 慢 ， 并 且 啊 应 时 间 增 加 了 。 频 京 调整 可 能 
使 间 敬 性 的 工作 负载 性 能 低下 ， 但 可 能 更 重要 的 是 ， 它 会 导致 性 能 波 

动 。 














第 二 个 复杂 之 处 是 boost 技 术 ， 这 个 技术 改变 了 我 们 对 CPU 模式 的 看 
法 。 我 们 曾经 以 为 四 核 2GHz CPU 有 四 个 同样 强大 的 核心 ， 不 管 其 中 有 
些 是 用 置 或 非 有 内置。 因此 ， 一 个 完美 的 可 扩展 系统 ， 当 它 使 用 所 有 四 个 
内 核 的 时 候 ， 可 以 预计 得 到 四 倍 的 提升 。 但 是 现在 已 经 不 是 这 样 了 ， 因 
为 当 系 统 只 使 用 一 个 核心 时 ， 处 理 器 会 运行 在 更 高 的 时 钟 速度 上 ， 例 如 
3GHz。 这 给 很 多 的 规划 容量 和 可 扩展 性 建 模 的 工具 出 了 一 个 难题 ， 因 
为 系统 性 能 表现 不 再 是 线性 的 变化 了 。 这 也 意味 着 , “ 空 亲 CPU 并 不 代 
表 相 同 规模 的 资源 浪费 ， 如 果 有 一 台 服 务 器 上 只 运行 了 备 库 的 复制 ， 而 
复制 执行 是 单线 程 的 ， 所 以 有 三 个 CPU 是 空闲 的 ， 因 此 认为 可 以 利用 这 
些 CPU 资源 执行 其 他 任务 而 不 影响 复制 ， 可 能 就 想 错 了 。 














9.3 ”平衡 内 存 和 破 盘 资源 


配置 大 量 内 存 最 大 的 原因 其 实 不 是 因为 可 以 在 内 存 中 保存 大 量 数 
据 : 最 终 目的 是 避免 磁盘 IO， 因 为 磁盘 IO 比 在 内 存 中 访问 数据 要 慢 得 
多 。 关 键 是 要 平衡 内 存 和 磁盘 的 大 小 、 速 度 、 成 本 和 其 他 因素 ， 以 便 为 
工作 负载 提供 高 性 能 的 表现 。 在 讨论 如 何 做 到 这 一 点 之 前 ， 暂 时 先 回 到 
基础 知识 上 来 。 


























计算 机 包含 一 个 金字 塔 型 的 缓存 体系 ， 更 小 、 更 快 、 更 昂贵 的 缓存 
在 顶端 ， 如 图 9-1 所 示 。 





| col a 

| CPU cache(s) | 
主 存 | 
硬盘 "= 














图 9-1: 缓存 层级 


在 这 个 高 速 缓存 层次 中 ， 最 好 是 利用 各 级 缓存 来 存放 “热点 ”数据 ， 
以 获得 更 快 的 访问 速度 ， 通 各 使 用 一 些 局 发 式 的 方法 ， 例 如 “最 近 被 使 
用 的 数据 可 能 很 快 再 次 被 使 用 ”以 及 “ 相 邻 的 数据 可 能 很 快 需要 使 用 ”， 
这 些 算法 非常 有 效 ， 因 为 它们 参考 了 空间 和 时 间 的 局 部 性 原理 。 














从 程序 员 的 视角 来 看 ，CPU 和 寄存 器 和 高 速 缓存 是 透明 的 ， 并 且 与 便 
件 架 构 相 关 。 管 理 它们 是 编译 器 和 CPU 的 工作 。 然 而 ， 程 序 员 会 有 意识 
地 注意 到 内 存 和 硬盘 的 不 同 ， 并 且 在 程序 中 通常 区 分 使 用 它们 包 。 





在 数据 库 服务 器 上 尤其 明显 ， 其 行为 往往 非常 符合 我 们 刚才 提 到 的 


预测 算法 所 做 的 预测 。 设 计 展 好 的 数据 库 缓存 如 InnoDB 绥 冲 池 ) ， 
其 效率 通 肖 超过 操作 系统 的 缓存 ， 因 为 操作 系统 缓存 是 为 通用 任务 设计 
的 。 数 据 库 缓存 更 了 解数 据 库 存 取 数 据 的 需求 ， 它 包含 特殊 用 途 的 逻辑 
(例如 写 入 顺序 〉 以 帮助 满足 这 些 需 求 。 此 外 ， 系 统 调 用 不 需要 访问 数 
据 库 中 的 缓存 数据 。 





这 些 专用 的 缓存 需求 就 是 为 什么 必须 平衡 缓存 层次 结构 以 适应 数据 
库 服务 器 特定 的 访问 模式 的 原因 。 因 为 寄存 器 和 心 片上 的 高 速 缓存 不 是 
用 户 可 配置 的 ， 内 存 和 存储 是 唯一 可 以 改变 的 东西 。 











9.3.1 ”随机 VO 和 顺序 VO 





数据 库 服务 器 同时 使 用 顺序 和 随机 VO， 随 机 WO 从 缓存 中 受益 最 
多 。 想 像 有 一 个 典型 的 混合 工作 负载 ， 均 衡 地 包含 单行 查找 与 多 行 范围 
扫描 ， 可 以 说 服 自 己 相 信 这 个 说 法 。 典 型 的 情况 是 “热点 ”数据 随机 分 
E Ak, BIRRA TE m bt R o A E 
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顺序 读 取 不 能 从 缓存 中 受 蔓 的 另 一 个 原因 是 它们 比 随 机 读 快 。 这 有 
以 下 两 个 原因 : 


顺序 1/0 比 随机 1/0 快 。 








顺序 操作 的 执行 速度 比 随机 操作 快 ， 无 论 是 在 内 存 还 是 磁盘 
上 。 假 设 磁盘 每 秒 可 以 做 100 个 随机 LO 操作 ， 并 且 可 以 完成 每 秒 
50MB 的 顺序 读 取 〈 这 大 概 是 消费 级 磁盘 现在 能 达到 的 水 平 ) 。 如 








果 每 行 100 字 节 ， 随 机 读 每 秒 可 以 读 100 行 ， 相 比 之 下 顺序 读 可 以 每 
秒 读 500000 行 一 一 是 随机 读 的 5000 倍 ， 或 几 个 数量 级 的 差异 。 因 
此 ， 在 这 种 情况 下 随机 IO 可 以 从 缓存 中 获得 很 多 好 处 。 








顺序 访问 内 存 行 的 速度 也 快 于 随机 访问 。 现 在 的 内 存心 片 通常 
每 秒 可 以 随机 访问 约 250000 次 100 字 节 的 行 ， 或 者 每 秒 500 万 次 的 顺 
序 访问 。 请 注意 ， 内 存 随机 访问 速度 比 磁盘 随机 访问 快 了 2 500 
音 ， 而 内 存 中 顺序 访问 只 有 磁盘 10 倍 的 速度 。 





存储 引擎 执行 顺序 读 比 随机 读 快 。 





一 个 随机 读 一 般 意味 着 存储 引 敬 必须 执行 索引 操作 。 (这 个 规 
则 也 有 例外 ， 但 对 InnoDB 和 MyISAM 都 是 对 的 ) 。 通 常 需要 通过 B 
树 的 数据 结构 人 查找， 并 且 和 其 他 值 比较 。 相 反 ， 连 续 读 取 一 般 需要 
遍历 一 个 简单 的 数据 结构 ， 例 如 链表 。 这 样 就 少 了 很 多 工作 ， 反 复 
这 样 操作 ， 连 续 读 取 的 速度 惑 比 随机 读 取 要 快 了 。 


最 后 ， 随 机 读 取 通常 只 要 查找 特定 的 行 ， 但 不 仅 仪 只 读 取 一 行 一 一 
而 是 要 读 取 一 整 页 的 数据 ， 其 中 大 部 分 是 不 需要 的 。 这 浪费 了 很 多 工 
作 。 为 一 方面 ， 顺 序 读 取 数据 ， 通 常 肥 生 在 想 要 的 页 面 上 的 所 有 行 ， 所 
以 更 符合 成 本 效益 。 


综 上 所 述 ， 通 过 缓存 顺序 读 取 可 以 节省 一 些 工 作 ， 但 缓存 随机 读 取 
可 以 节省 更 多 的 工作 。 换 句 话 说 ， 如 果 能 负担 得 起 ， 增 加 内 存 是 解决 随 
机 IO 读 取 问 题 最 好 的 办 法 。 


9.3.2 Bf, ixMSs 


MAA BMA FE, MEE DORE Se ME BE aK WRA AB 
de CTPA AY VASE ATE, HRR a FEY ER AAT RERE 
都 会 在 缓存 命中 。 虽 然 还 是 会 有 逻辑 读 取 ， 不 过 物理 读 取 就 没有 了 。 但 
写 入 是 不 同 的 问题 。 写 入 可 以 像 读 一样 在 内 存 中 完成 ， 但 迟早 要 被 写 入 
到 磁盘 ， 所 以 它 是 需要 持久 化 的 。 换 句 话 说 ,缓存 可 延缓 写 入 ， 但 不 能 
像 消除 读 取 一 样 消除 写 入 。 











事实 上 ， 除 了 允许 写 入 被 延迟 ， 绥 存 可 以 允许 它们 被 集中 操作 ， 主 
要 通 以 下 两 个 重要 途径 : 


多 次 写 入 ， 一 次 刷新 





一 片 数据 可 以 在 内 存 中 改变 很 多 次 ， 而 不 需要 把 所 有 的 新 值 写 
到 磁盘 。 当 数据 最 终 被 刷新 到 磁盘 后 ， 最 后 一 次 物理 写 之 前 发 生 的 
修改 都 被 持久 化 了 。 例 如 ， 许 多 语句 可 以 更 新 内 存 中 的 计数 器 。 如 
果 计 数 器 递增 100 次 ， 然 后 写 入 到 磁盘 ，100 次 修改 就 被 合并 为 一 次 
5 





1/0 会 并 


许多 不 同 部 分 的 数据 可 以 在 内 存 中 修改 ， 并 且 这 些 修改 可 以 合 
并 在 一 起 ， 通 过 一 次 磁盘 操作 完成 物理 写 入 。 


这 就 是 为 什么 许多 交易 系统 使 用 预 写 日 志 (WAL) 策略 。 预 写 日 
志 采 用 在 内 存 中 变更 页 面 ， 而 不 马上 刷新 到 磁盘 上 的 策略 ， 因 为 刷新 磁 
盘 通 第 需要 随机 WO， 这 非常 慢 。 相 反 ， 如 果 把 变化 的 记录 写 到 一 个 连 
续 的 日 志文 件 ， 这 就 很 快 了 。 后 台 线 程 可 以 稍 后 把 修改 的 页 面 刷新 到 磁 
fas 并 在 刷新 过 程 中 优化 写 操作 。 





写 入 从 缓冲 中 大 大 受益 ， 因 为 它 把 随机 IO 更 多 地 转换 到 连续 IO。 
FEF CRI 写 通常 是 由 操作 系统 批量 处 理 ， 使 它们 能 以 更 优化 的 方式 
刷新 到 磁盘 。 同 步 〈 无 缓冲 ) 写 必须 在 写 入 到 磁盘 之 后 才能 完成 。 这 就 
是 为 什么 它们 受益 于 RAID 控 制 器 中 电池 供电 的 回 写 (Write-Back)〉 高 速 
绥 存 (我 们 稍 后 讨论 RAID)〉。 


9.3.3 工作 集 是 什么 


每 个 应 用 程序 都 有 一 个 数据 的 “工作 集 一 一 就 是 做 这 个 工作 确实 需 
要 用 到 的 数据 。 很 多 数据 库 都 有 大 量 不 在 工作 集 内 的 数据 。 





可 以 把 数据 库 想 象 为 有 抽 屠 的 办 公 梨 。 工 作 集 就 是 放 在 时 面 上 的 完 
成 工作 必须 使 用 的 文件 。 桌 面 是 这 个 比喻 中 的 主 内 存 ， 而 抽 导 就 是 硬 
盘 。 








就 像 完成 工作 不 需要 办 公 虽 里 每 一 张 纸 一 样 ， 也 不 需要 把 整个 数据 
库 装 到 内 存 中 来 获得 最 佳 性 能 一 一 只 需要 工作 集 就 可 以 。 











工作 集 大 小 的 不 同 取决 于 应 用 程序 。 对 于 某 些 应 用 程序 ， 工 作 集 可 
能 是 总 数据 大 小 的 1%， 而 对 于 其 他 应 用 ， 也 可 能 接近 100%。 当 工作 集 
不 能 全 放 在 内 存 中 时 ， 数 据 库 服 务 器 必须 在 磁盘 和 内 存 之 间 交 换 数据 ， 
以 完成 工作 。 这 就 是 为 什么 内 存 不 足 可 能 看 起 来 却 像 WO 问 题 。 有 时 没 
有 办 法 把 整个 工作 集 的 数据 放 在 内 存 中 ， 并 且 有 时 也 并 不 真 的 想 这 么 做 
(例如 ， 若 应 用 需要 大 量 的 顺序 UO) 。 工 作 集 能 否 完全 放 在 内 存 中 ， 
对 应 用 程序 体系 结构 的 设计 会 产生 很 大 的 影响 。 











工作 集 可 以 定义 为 基于 时 间 的 百分比 。 例 如 ， 一 小 时 的 工作 集 可 能 


征 一 个 小 时 内 数据 库 使 用 的 95% 的 页 面 ， 除 了 59% 的 最 不 常用 的 页 面 。 百 
分 比 是 考虑 这 个 问题 最 有 用 的 方式 ， 因 为 每 小 时 可 能 需要 访问 的 数据 只 
有 1%， 但 超过 24 小 时 ， 需 要 访问 的 数据 可 能 会 增加 a 到 整个 数据 库 中 20% 
的 不 同 页 面 。 根 据 需 要 被 绥 存 起 来 的 数据 量 多 少 ， 来 思考 工作 集会 更 加 
和 直观， 缓存 的 数据 越 多 ， 工 作 负 载 就 越 可 能 成 为 CPU 密集 型 。 如 果 不 能 
缓存 足够 的 数据 ， 工 作 集 就 不 能 完全 放 在 内 存 中 。 

















应 该 依据 最 常用 的 页 面 集 来 考虑 工作 集 ， 而 不 是 最 频繁 读 写 的 页 面 
集 。 这 意味 着 ， 确 定 工作 集 需 要 在 应 用 程序 内 有 测量 的 模块 ， 而 不 能 仅 
仅 看 外 部 资源 的 利用 ， 例 如 IO 访问 ， 因 为 页 面 的 MO 操作 跟 逻 辑 访 问 页 
面 不 是 同一 回 事 。 例 如 ，MySQL 可 能 把 一 个 页 面 读 入 内 存 ， 然 后 访问 
它 数 百 万 次 ， 但 如 果 碍 看 strace， 只 会 看 到 一 个 IO 操作 。 缺 乏 确 定 工作 
集 所 需 的 检测 模块 ， 最 大 的 原因 是 没有 对 这 个 主题 有 较 多 的 研究 。 














工作 集 包 括 数据 和 索引 ， 所 以 应 该 采用 缓存 单位 来 计数 。 一 个 缓存 
单位 是 存储 引擎 工作 的 数据 最 小 单位 。 








不 同 存 储 引 擎 的 缓存 单位 大 小 是 不 一 样 的 ， 因 此 也 使 得 工作 集 的 大 
小 不 一 样 。 例 如 ， InnoDB 在 默认 情况 下 是 16 KB 的 页 。 如 果 InnoDB 做 
一 个 单行 查找 需要 读 取 磁 盘 ， 惑 需要 把 包含 该 行 的 整个 页 面 读 入 绥 冲 池 
进行 缓存 ， 这 会 引起 一 些 绥 存 的 浪费 。 假 设 要 随机 访问 100 字 市 的 行 。 
InnoDB 将 用 掉 绥 冲 池 中 很 多 额外 的 内 存 来 缓存 这 些 行 ， 因 为 每 一 行 都 
必须 读 取 和 缓存 一 个 完整 的 16KB 页 面 。 因 为 工作 集 也 包括 索引 ， 
InnoDB 也 会 谈 取 并 缓存 查 找 行 所 需 的 索引 树 的 一 部 分 。InnoDB 的 索引 
页 大 小 也 是 16 KB， 这 意味 着 访问 一 个 100 字 市 的 行 可 能 一 共 要 使 用 32 
KB 的 缓存 空间 (有 可 能 更 多 ， 这 取决 于 索引 树 有 多 深 ) 。 因 此 ， 绥 存 
单位 也 是 在 mnoDB 中 精心 挑选 聚集 索引 非常 重要 的 另 一 个 原因 。 聚 集 
索引 不 仅 可 以 优化 磁盘 访问 ， 还 可 以 帮助 在 同一 页 面 存储 相关 的 数据 ， 
































因此 在 缓存 中 可 以 尽量 放下 整个 工作 集 。 


9.3.4 找到 有 效 的 内 存 / 磁 盘 比 例 


找到 一 个 慨 好 的 凡 存 /磁盘 比例 最 好 的 方式 是 通过 试验 和 基准 测 
试 。 如 宁可 以 把 所 有 东西 放 入 内 存 ， 你 就 大 功 告 成 了 一 一 后 面 没有 必要 
再 为 此 考虑 什么 。 但 大 多 数 的 时 候 不 可 能 这 么 做 ， 所 以 需要 用 数据 的 一 
个 子 集 来 做 基准 测试 ， 看 看 将 会 发 生 什么 。 测 试 的 目标 是 一 个 可 接受 的 
缓存 命中 率 。 组 存 未 命中 是 当 有 查询 请 求 数据 时 ， 数 据 不 能 在 内 存 中 命 
中 ， 服 务 亏 需要 从 厂 盘 获取 数据 。 























缓存 命中 率 实 际 上 也 会 决定 使 用 了 多 少 CPU， 所 以 评估 缓存 命中 率 
的 最 好 方法 是 查看 CPU 使 用 率 。 例 如 ， 奉 CPU 使 用 了 99% 的 时 间 工 作 ， 
用 了 1% 的 时 间 等 待 JO， 那 缓存 命中 率 还 是 不 错 的 。 








让 我 们 考虑 下 工作 集 是 如 何 影响 高 速 缓存 命中 率 的 。 首 先 重要 的 一 
点 ， 要 认识 到 工作 集 不 仅 是 一 个 单一 的 数字 而 是 一 个 统计 分 布 ， 并 且 绥 
存 命中 率 是 非 线 性 分 布 的 。 例 如 ， 有 10GB 内 存 ， 并 且 组 存 未 命中 率 为 
10%， 你 可 能 会 认为 只 需要 增加 11% 以 上 的 内 存 名 ， 就 可 以 降低 缓存 的 
未 命中 率 到 0。 但 实际 上 ， 诸 如 绥 存 单位 的 大 小 之 类 的 问题 会 导致 绥 存 
效率 低下 ， 可 能 意味 着 理论 上 需要 50GB 的 内 存 ， 才 能 把 未 命中 率 降 到 
19%。 即 使 与 一 个 完美 的 缓存 单位 相 匹 配 ， 理 论 预 测 也 可 能 是 错误 的 : 
例如 数据 访问 模式 的 因素 也 可 能 让 事情 更 复杂 。 解 决 1% 的 缓存 未 命中 
率 甚 至 可 能 需要 500GB 的 内 存 ， 这 取决 于 具体 的 工作 负载 ! 























有 时候 很 容易 去 优化 一 些 可 能 不 会 带 来 多 少 好 处 的 地 方 。 例 如 ， 
10% 的 未 命中 率 可 能 导致 80% 的 CPU 使 用 率 ， 这 已 经 是 相当 不 错 的 了 。 





假设 增加 内 存 ， 并 能 够 让 缓存 未 命中 率 下 降 到 5%， 简 单 来 说 ， 将 提供 
另外 约 6% 的 数据 给 CPU。 再 简化 一 下 ， 也 可 以 说 ， 把 CPU 使 用 率 增加 
到 了 84.8%。 然 而 ， 考 虑 到 为 了 得 到 这 个 结果 需要 购买 的 内 存 ， 这 可 不 
一 定 是 一 个 大 胜利 。 在 现实 中 ， 因 为 内 存 和 磁盘 访问 速度 之 间 的 差异 、 
CPU 真正 操作 的 数据 ， 以 及 许多 其 他 因素 ， 降 低 缓 存 未 命中 率 到 59% 可 
能 都 不 会 太 多 改变 CPU 使 用 率 。 

















这 就 是 为 什么 我 们 说 ， 你 应 该 争取 一 个 可 接受 的 缓存 命中 率 ， 而 不 
古 将 缓存 未 命中 率 降低 到 零 。 没 有 一 个 应 该 作为 目标 的 数字 ， 因 为 “可 
以 接受 ”怎么 定义 ， 取 决 于 应 用 程序 和 工作 负载 。 有 些 应 用 程序 有 1% 的 
绥 存 未 命中 都 可 以 工作 得 非常 好 ， 而 另 一 些 应 用 实际 上 需要 这 个 比例 低 
到 0.01% 才 能 良好 运转 。 〈“ 民 好 的 缓存 未 命中 率 ? 是 个 模糊 的 概念 ， 其 
实 有 很 多 方法 来 进一步 计算 未 命中 率 。 ) 








最 好 的 内 存 /磁盘 的 比例 还 取决 于 系统 上 的 其 他 组 件 。 假 设 有 16 GB 
的 内 存 、20 。” GB 的 数据 ， 以 及 大 量 未 使 用 的 磁盘 空间 系统 。 该 系统 在 
80% 的 CPU 利 用 率 下 运行 得 很 好 。 如 末 想 在 这 个 系统 上 放置 两 倍 多 的 数 
据 ， 并 保持 相同 的 性 能 水 平 ， 你 可 能 会 认为 只 需要 让 CPU 数量 和 内 存量 
也 增加 到 两 倍 。 然 而 ， 即 使 系统 中 的 每 个 组 件 都 按照 增加 的 负载 扩展 相 
同 的 量 (一 个 不 切实 际 的 假设 ) ， 这 依然 可 能 会 使 得 系统 无 法 正常 工 
作 。 有 20GB 数 据 的 系统 可 能 使 用 了 菏 些 组 件 超过 50% 的 容量 一 一 例 
如 ， 它 可 能 已 经 用 掉 了 每 秒 VO 最 大 操作 数 的 80%。 并 且 在 系统 内 排队 也 
古 非 线性 的 。 服 务 需 将 无 法 处 理 两 倍 的 负载 。 因 此 ， 最 好 的 内 存 /磁盘 
比例 取决 于 系统 中 最 薄弱 的 组 件 。 


9.3.5 WAEN 








如 果 无 法 满足 让 足够 的 数据 在 内 存 中 的 目标 一 一 例如 ， 估 计 将 需要 
500 ”GB 的 内 存 才能 完全 让 CPU 负 载 起 当前 的 VO 系统 一 一 那么 应 该 考虑 
一 个 更 强大 的 VO 子 系统 ， 有 时 甚至 要 以 牺牲 内 存 为 代价 ， 同 时 应 用 程 
序 的 设计 应 该 能 处 理 L/O 等 待 。 








这 上 听 起 来 似乎 有 悖 常理 。 毕 葛 ， 我 们 刚刚 说 过 ， 更 多 的 内 存 可 以 组 
解 IJO 子 系统 的 压力 ， 并 减少 MO 等 待 。 为 什么 要 加 强 MO 子 系统 呢 ， 如 果 
只 增加 内 存 能 解决 问题 吗 ? 答案 就 在 所 涉及 的 因素 之 间 的 平衡 ， 例 如 读 
写 之 间 的 平衡 ， 每 个 LO 操作 的 大 小 ， 以 及 每 秒 有 多 少 这 样 的 操作 发 
生 。 例 如 ， 若 需要 快速 写 日 志 ， 就 不 能 通过 增加 大 量 有 效 内 存 来 避免 磁 
盘 写 入 。 在 这 种 情况 下 ， 投 资 一 个 高 性 能 的 MO 系统 与 带电 池 文 持 的 写 
缓存 或 固态 存储 ， 可 能 是 个 更 好 的 主意 。 








作为 一 个 简要 回顾 ， 从 传统 磁盘 读 取 数 据 的 过 程 分 为 三 个 步骤 : 


1. 移动 读 取 人 磁头 到 破 盘 表面 上 的 正确 位 置 。 
2. 等 待 磁盘 旋转 ， 所 有 所 需 的 数据 在 读 取 和 磁头 下 。 
3. 等 待 磁盘 旋转 过 去 ， 所 有 上 所 需 的 数据 都 被 读 取 磁头 读 出 。 


磁盘 执行 这 些 操 作 有 多 快 ， 可 以 浓缩 为 两 个 数字 : 访问 时 间 ( 步 又 
1 和 2 合并 ) 和 传输 速度 。 这 两 个 数字 也 决定 延迟 和 存 叶 量 。 不 管 是 需要 
快速 访问 时 间 还 是 快速 的 传输 速度 一 一 或 混合 两 者 一 一 依赖 于 正在 运行 
的 碍 询 语句 的 种 类 。 从 完成 一 次 磁盘 读 取 所 需要 的 总 时 间 来 说 ， 小 的 随 
机 碍 找 以 步骤 1 和 2 为 主 ， 而 大 的 顺序 读 主要 是 第 3 步 。 























其 他 一 些 因 素 也 可 以 影响 磁盘 的 选择 ， 哪 个 重要 取决 于 应 用 。 假 设 
正在 为 一 个 在 线 应 用 选择 磁盘 ， 例 如 一 个 受 欢迎 的 新 闻 网 站 ， 有 大 量 小 
的 磁盘 随机 读 取 。 可 能 需要 考虑 下 列 因素 : 


存储 容量 








对 在 线 应 用 来 说 容量 很 少 成 为 问题 ， 因 为 现在 的 磁盘 通常 足够 
大 了 。 如 果 不 够 ， 用 RAID 把 小 人 磁盘 组 合 起 来 是 标准 做 法 @。 


传输 速度 


现代 磁盘 通常 数据 传输 速度 非常 快 ， 正 如 我 们 前 面 看 到 的 。 完 
竟 多 快 主要 取 雇 于 主轴 转速 和 数据 存储 在 磁盘 表面 上 的 密度 ， 再 加 
上 主机 系统 的 接口 的 限制 《许多 现代 磁盘 读 取 数据 的 速度 比 接口 可 
以 传输 的 快 )。 无 论 如 何 ， 传 输 速度 通常 不 是 在 线 应 用 的 限制 因 
素 ， 因 为 它们 一 般 会 做 很 多 小 的 随机 查找 。 














访问 时 间 





对 随机 奉 找 的 速度 而 言 ， 这 通常 是 个 主要 因素 ， 所 以 应 该 寻找 
更 快 的 访问 时 间 的 磁盘 。 


主轴 转速 


现在 常见 的 转速 是 7 200RPM、10000RPM， 以 及 15000RPM。 
转速 不 管 对 随机 查找 还 是 顺序 扫描 都 有 很 大 影响 。 


物理 尺寸 


所 有 其 他 条 件 部 相同 的 情况 下 ， 磁 盘 的 物理 尺寸 也 会 带 来 差 
All: 越 小 的 磁盘 ， 移 动 读 取 磁 尖 需 要 的 时 间 就 越 短 。 服 务 占 级 的 
2.5 英 二 磁盘 性 能 往往 比 它 们 的 更 大 的 盘 更 快 。 和 它们 还 可 以 节省 电 
力 ， 并 且 通 第 可 以 融入 机 箱 中 。 


和 CPU 一 样 ，MySQL 如 何 扩展 到 多 个 磁盘 上 取 雇 于 存储 引擎 和 工 
作 负 载 。InnoDB 能 很 好 地 扩展 到 多 个 人 硬盘 驱动 器 。 然 而 ，MyISAM 的 表 
锁 限 制 其 写 的 可 扩展 性 ， 因 此 写 繁 重 的 工作 加 在 MyISAM 上， 可 能 无 法 
从 多 个 驱动 器 中 收益 。 虽 然 操作 系统 的 文件 系统 缓冲 和 后 台 并 发 号 入 会 
有 点 帮助 ， 但 MyISAM 相 对 于 InnoDB 在 写 可 扩展 性 上 有 更 多 的 限制 。 








和 CPU 一 样 ， 更 多 的 磁盘 也 并 不 总 是 更 好 。 有 些 应 用 要 求 低 延 迟 需 
要 的 是 更 快 的 驱动 右 ， 而 不 是 更 多 的 驱动 右 。 例 如 ， 复 制 通 第 在 更 快 的 
驱动 器 上 表现 更 好 ， 因 为 备 库 的 更 新 是 单线 程 的 。 中 





9.4 ESF 


HS CAR) 存储 器 实际 上 是 有 30 年 历史 的 技术 ， 但 是 它 作为 新 一 
代 驱 动 器 而 成 为 热门 则 是 最 近 几 年 的 事 。 固 态 存储 现在 越 来 越 便宜 ， 并 
且 也 更 成 熟 了 ， 它 正在 被 广泛 使 用 ， 并 且 可 能 会 在 不 久 的 将 来 在 多 种 用 
途上 代 丛 传统 磁盘 。 








固态 存储 设备 采用 非 易 失 性 闪存 芯片 而 不 是 磁性 盘 片 组 成 。 它 们 也 
被 称 为 NVRAM， 或 非 易 失 性 随机 存 取 存 储 器 。 回 态 存 储 设 备 没有 移动 
部 件 ， 这 使 得 它们 表现 得 跟 人 硬盘 驱动 器 有 很 大 的 不 同 。 我 们 将 详细 探讨 
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a i 








目前 MySQL 用 户 感 兴趣 的 技术 可 分 为 两 大 类 : SSD (el ASHE) 和 
PCIe 卡 。SSD 通 过 实现 SATA《 串 行 高 级 技术 附件 ) 接口 来 模拟 标准 便 
盘 ， 所 以 可 以 替代 硬盘 驱动 器 ， 直 接 插 入 服务 器 机 箱 中 的 现 有 插 覃 。 
PCIe 卡 使 用 特殊 的 操作 系统 驱动 程序 ， 把 存储 设备 作为 一 个 块 设 备 输 
出 。PCIe 和 SSD 设 备 有 时 可 以 简单 地 都 认为 是 SSD。 


下 面 是 内 存 性 能 的 快速 小 结 。 高 质量 闪存 设备 具备 : 


。 相 比 人 硬盘 有 更 好 的 随机 读 写 性 能 。 闪 存 设备 通常 读 明 显 比 写 要 快 。 

。 相 比 硬盘 有 更 好 的 顺序 读 写 性 能 。 但 是 相 比 而 言 不 如 随机 WO 的 改 
善 那么 大 ， 因 为 硬盘 随机 1/O 比 顺序 VO 要 慢 得 多 。 入 门 级 固态 便 盘 
的 顺序 读 取 实 际 上 还 可 能 比 传统 硬盘 慢 。 

© 相 比 硬盘 能 更 好 地 文 持 并 发 。 闪 存 设 备 可 以 文 持 更 多 的 并 发 操作 ， 
事实 上 ， 只 有 大 量 的 并 发 请 求 才能 真正 实现 最 大 吞吐 量 。 








最 重要 的 事情 是 提升 随机 IO 和 并 发 性 。 闪 存 记 忆 体 可 以 在 高 并 发 
下 提供 很 好 的 随机 IO 性 能 ， 这 正 是 范式 化 的 数据 库 所 需要 的 。 设 计 非 
范式 化 的 Schema 最 常见 的 原因 之 一 是 为 了 避免 随机 IO， 并 且 使 得 查询 
可 能 转化 为 顺序 MO。 





因此 ， 我 们 相信 回 态 存储 未 来 将 从 根本 上 改变 RDBMS 技 术 。 当 前 
这 一 代 的 RDBMS 技 术 几 十 年 来 部 是 为 机 械 磁盘 做 优化 的 。 同 样 成 熟 和 
深入 的 研究 工作 在 固态 存储 上 还 没有 真正 出 现 包 。 


9.4.1 闪存 概述 


人 硬盘 驱动 喜 使 用 旋转 盘 片 和 可 移动 磁头 ， 其 物理 结构 决定 了 磁盘 回 
有 的 局 限 性 和 特征 。 对 固态 存储 也 是 一 样 ， 它 是 构建 在 内 存 之 上 的 。 不 
要 以 为 固态 存储 很 简单 ， 实 际 上 比 硬盘 驱动 器 在 东 些 方面 更 复杂 。 内 存 
的 限制 实际 上 是 相当 严重 的 ， 并 且 难 以 克服 ， 所 以 典型 的 固态 设备 都 有 
错综复杂 的 染 构 、 绥 存 ， 以 及 独 有 的 “法 宝 ”。 




















内 存 的 最 重要 的 特征 是 可 以 迅速 完成 多 次 小 单位 读 取 ， 但 是 写 入 更 
有 挑战 性 。 闪 存 不 能 在 没有 做 擦 除 操作 前 改写 一 个 单元 (Cell) ©, 并 
且 一 次 必须 擦 除 一 个 大 块 一 一 例如 ，512 KB。 擦 除 周期 是 缓慢 的 ， 并 且 
最 终 会 磨损 整个 块 。 一 个 块 可 以 容忍 的 擦 除 周 期 次 数 取 决 于 所 使 用 的 底 
层 技术 ， 有 关 这 些 内 容 我 们 稍 后 再 讲 。 








写 入 的 限制 是 固态 存储 复杂 的 原因 。 这 也 是 为 什么 一 些 设备 供应 商 
在 设备 的 稳定 、 性 能 的 一 致 性 等 方面 和 其 他 供应 商 有 区 别 的 原因 。“ 魔 
法 ?全 部 都 在 其 专 有 的 固件 、 驱 动 程序 ， 以 及 其 他 零 零 俯 雁 的 东西 里 ， 
这 些 东西 使 得 固态 设备 展 好 运转 。 为 了 使 号 入 表现 恨 好 ， 并 避免 闪存 块 


过 早 损 耗 完 寿命 ， 设 备 必 须 能 够 搬迁 页 面 并 执行 垃圾 收集 和 有 所谓 的 磨损 
均衡 。 写 放大 用 于 描述 数据 从 一 个 地 方 移动 到 男 一 个 地 方 的 额外 写 操 
作 ， 多 次 写 数据 和 元 数据 导致 局 部 块 经 常 写 。 如 果 你 有 兴趣 ， 维 基 百 科 
中 的 写 放 大 的 文章 ， 是 个 学 习 的 好 地 方 ， 可 以 从 其 中 了 解 更 多 关于 闪存 
的 知识 。 





垃圾 收集 对 理解 内 存 很 重要 。 为 了 保持 一 些 块 是 干净 的 并 且 可 以 被 
写 入 ， 设 备 需要 回收 脏 块 。 这 需要 设备 上 有 一 些 空闲 空间 。 无 论 是 设备 
内 部 有 一 些 看 不 到 的 预 留 空间 ， 或 者 通过 不 写 那么 多 数据 来 预 留 需要 的 
空间 一 一 不 同 的 设备 可 能 有 所 不 同 。 无 论 哪 种 方式 ， 设 备 填 满 了 ， 垃 圾 
收集 惑 必须 更 加 努力 地 工作 ， 以 保持 一 些 块 是 干净 的 ， 所 以 写 放大 的 们 
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因此 ， 许 多 设备 在 被 填 满 后 会 开始 变 慢 。 到 底 会 慢 多 少 ， 不 同 的 制 
造 商 和 型 号 之 间 有 所 不 同 ， 依 赖 于 设备 的 架构 。 有 些 设备 为 高 性 能 而 设 
计 ， 即 使 写 得 非常 满 ， 依 然 可 以 保持 高 性 能 。 但 是 ， 通 常 一 个 100GB 的 
文件 在 160GB 和 320GB 的 SSD 上 表现 完全 不 同 。 速 度 下 降 是 由 于 没有 空 
闲 块 时 必须 等 待 探 写 完成 所 造成 的 。 写 到 一 个 空闲 块 只 需要 花费 数 百 微 


秒 ， 但 是 探 写 慢 得 多 一 ill tin LP 


9.4.2 ”闪存 技术 


有 两 种 主要 的 闪存 设备 类 型 ， 当 考虑 购买 内 存 存 储 时 ， 理 解 两 者 之 
间 的 不 同 是 很 重要 的 。 这 两 种 类 型 分 别 是 单 层 单元 〈SLC) 和 多 层 单 元 
(MLC) . 

















SLC 的 每 个 单元 存储 数据 的 一 个 比特 :可 以 是 0 或 1。SLC 相 对 更 昂 





贵 ， 但 非常 快 ， 并 且 擦 写 寿命 高 达 100000 个 写 周 期 ， 具 体 值 取决 于 供应 
商 和 型 号 。 这 听 起 来 好 像 不 多 ， 但 在 现实 中 一 个 好 的 SLC 设 备 应 该 持续 
使 用 大 约 20 年 左右 ， 甚 至 比 卡 上 安装 的 控制 右 更 耐用 和 可 靠 。 缺 点 则 是 
存储 密度 相对 较 低 ， 所 以 不 能 在 每 个 设备 上 得 到 那么 多 空间 。MLC 每 个 
单元 存储 2 个 比特 、3 个 比特 的 设备 也 正在 进入 市 场 。 这 使 得 通过 MLC 设 
备 获得 更 高 的 存储 密度 《更 大 的 容量 ) 成 为 可 能 。 成 本 更 低 了 ， 但 是 速 
度 和 耐 探 写 性 也 下 降 了 。 一 个 不 错 的 MLC 设 备 可 能 被 定 为 10000 个 写 循 
环 周期 。 











可 以 在 大 众 市 场 上 购买 到 这 两 种 类 型 的 内 存 设 备 ， 它 们 之 间 的 竞争 
有 助 于 闪存 的 有 发展。 目前 ，SLC 仍 持 有 “企业 ?级 服务 器 的 存储 解决 方案 
的 声誉 ， 通 常 被 视 为 消费 级 的 MLC 设 备 ， 一 般 使 用 在 笔记 本 电脑 和 数码 
相机 等 地 方 。 然 而 ， 这 种 情况 正在 改变 ， 出 现 了 一 种 新 兴 的 所 谓 企业 级 
MLC (CeMLC) 存储 。 











MLC 技 术 的 发 展 是 很 有 意思 的 ， 如 果 正 在 考虑 购买 内 存 存储 ， 这 个 
发 展 方 辐 值 得 密切 关注 。MLC 非 第 复杂 ， 包 含 很 多 有 助 于 设备 质量 和 性 
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对 较 短 的 信号 保持 周期 ， 以 及 较 高 的 错误 率 必 须 纠 正 。 随 着 市 场 转 移 到 
更 小 、 密 度 更 高 的 必 片 ， 其 中 的 忌 片 单元 可 以 存储 3 比特 ， 单 个 芯片 变 
得 更 不 可 徘 以 及 更 容易 出 错 。 








然而 ， 这 并 不 是 一 个 不 可 逾越 的 工程 问题 。 厂 商 正在 制造 一 些 有 越 
来 越 多 隐 世 容量 的 设备 ， 因 此 有 足够 的 内 部 见 余 。 尺 管内 存 厂 商 非常 注 
意 保护 上 自己 的 商业 秘密 ， 还 是 有 传言 称 ， 某 些 设 备 可 能 有 比 它 标 称 大 小 
多 出 高 达 两 倍 的 存储 空间 。 使 MLC 芯 片 更 耐用 的 另 一 种 方法 是 通过 固件 
逻辑 。 平 衡 磨损 和 重 映射 的 算法 是 非常 重要 的 。 











寿命 的 长 短 取 决 于 真实 的 容量 ， 固 件 逻 辑 等 一 一 所 以 最 终 是 因 供 应 
商 而 异 的 。 我 们 听 说 过 在 几 个 星期 里 密集 使 用 导致 设备 报废 的 报告 ! 








因此 ，MLC 设 备 最 关键 的 环节 是 内 置 的 算法 和 智能 。 制 造 一 个 好 的 
MLC 设 备 比 制造 一 个 SLC 设备 难得 多 ， 但 也 是 可 能 的 。 随 着 工程 学 的 伟 
大 进步 ， 以 及 容量 和 密度 的 增加 ， 一 些 最 好 的 供应 商 提 供 的 设备 ， 是 值 
得 用 eMLC 这 个 标签 的 。 这 个 领域 随 着 时 间 的 推移 进步 得 很 快 ， 本 书 对 
MLC 与 SLC 的 意见 可 能 很 快 会 变 得 过 时 。 











设备 的 寿命 还 剩 多 久 ? 


Virident 担 保 其 FlashMax 1.4 TB MLC 设 备 可 以 持续 写 入 15 PB 数 
据 ， 但 这 是 在 闪存 级 别 的 数据 ， 用 户 可 见 的 写 入 是 会 放大 的 。 我 们 跑 
了 一 个 小 实验 来 发 现 特定 的 工作 负载 下 的 写 入 放大 因子 。 


我 们 创建 了 一 个 500GB 的 数据 集 ， 然 后 在 上 面 运行 tpcc-mysq1 基 
准 测试 ， 跑 了 一 个 小 时 。 在 这 个 小 时 里 ，/proc/diskstats 报 告 了 
984GB 的 写 入 ， 然 后 Virident 配 置 工具 显示 在 闪存 层 有 1 125GB 的 写 
入 ， 因 此 写 入 放大 因子 是 1.14。 记 住 ， 如 果 设 备 上 消耗 了 更 多 空间 ， 
这 个 值 会 更 高 ， 并 且 这 个 值 的 浮动 还 基于 写 入 方式 是 顺序 还 是 随机 。 


在 这 样 的 比率 下 ， 如 果 不 间断 地 跑 一 年 半 的 基准 测试 ， 就 可 以 用 
完 设备 的 寿命 。 当 然 ， 真 实 的 工作 负载 很 少 是 写 密集 型 的 ， 所 以 这 个 
卡 在 实际 使 用 中 应 该 可 以 持续 工作 很 多 年 。 这 个 观点 不 是 说 该 设备 将 
很 快 磨损 它 是 说 ， 写 放大 系数 是 很 难 预测 的 ， 需 要 检查 设备 ， 根 
据 工 作 量 来 查看 它 的 行为 。 





容量 对 寿命 的 影响 也 很 大 ， 正 如 我 们 已 经 提 到 的 。 更 大 容量 的 设 
备 会 使 得 寿命 显著 增长 ， 这 是 为 什么 MLC 越 来 越 流行 一 一 最 近 我 们 看 
到 足够 大 的 容量 可 以 延长 寿命 是 有 理由 的 。 





9.4.3 ”闪存 的 基准 测试 


对 闪存 设 备 进行 基准 测试 是 复杂 并 且 困 难 的 。 有 很 多 情况 会 导致 测 
试 错误 ， 需 要 了 解 特 定 设备 的 知识 ， 并 且 需 要 有 极 大 的 耐心 和 关注 ， 才 
能 正确 地 操作 。 








闪存 设备 有 一 个 三 阶段 模式 ， 我 们 称 为 A-B-C 性 能 特性 。 它 们 开始 
阶段 运行 非常 快 (阶段 A〉， 然 后 垃圾 回收 器 开始 工作 ， 这 将 导致 在 一 
段 时 间 内 ， 设 备 处 于 过 渡 到 稳定 状态 (阶段 8， 的 阶段 ， 最 后 设备 进入 
一 个 稳定 状态 状态 C，〉。 所 有 我 们 测试 过 的 设备 都 有 这 个 特 后 。 


当然 ， 我 们 感 兴 趣 的 是 阶段 C 的 性 能 ， 所 以 基准 测试 只 需要 测量 这 
个 部 分 的 运行 过 程 。 这 意味 着 基准 测试 要 做 的 不 仅仅 是 基准 测试 : 还 需 
要 先进 行 一 下 预 热 ， 然 后 才能 进行 基准 测试 。 但 是 ， 定 义 预 热 的 终点 和 
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设备 、 文 件 系统 ， 以 及 操作 系统 通过 不 同方 式 提供 TRIM 命 令 的 文 
持 ， 这 个 命令 标记 空间 准备 重用 。 有 时 当 删 除 所 有 文件 时 设备 会 被 
TRIM。 如 果 在 基准 测试 运行 的 情况 下 发 生 ， 设 备 将 重 置 到 阶段 A， 然 
后 必须 重新 执行 A 和 B 之 间 的 运行 阶段 。 男 一 个 因 系 是 设备 被 填充 得 很 
满 或 者 不 满 时 ， 不 同 的 性 能 表现 。 一 个 可 重复 的 基准 测试 必须 履 盖 到 所 
有 这 些 因素 。 





通过 上 述 分 析 ， 可 知 基准 测试 的 复杂 性 ， 所 以 就 算 厂 商 如 实地 报告 
测试 结果 ， 但 对 于 外 行 来 说 ， 厂 商 的 基准 测试 和 规格 说 明 书 依然 可 能 有 
很 多 “ 坑 ”。 
通常 可 以 从 供应 两 那 得 到 四 个 数字 。 这 里 有 一 个 设备 规格 的 例子 : 
. 设备 读 取 性 能 最 高 达 520 MB/s. 
. 设备 写 入 性 能 最 高 达 480 MB/s。 


. 设备 持续 写 入 速度 可 以 稳定 在 420 MB/s. 
. 设备 每 秒 可 以 执行 70000 个 4 KB 的 写 操 作 。 
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如 有 果 再 次 复核 这 些 数字 ， 你 会 及 现 峰 值 4KB 写 入 达到 70000 个 
IOPS“〈 每 秒 输 入 /输出 操作 ) ， 这 么 算 每 秒 写 入 大 约 只 有 274 MB/s， 这 
比 第 二 点 和 第 三 点 中 说 明 的 高 峰 写 入 带宽 少 了 很 多 。 这 是 因为 达到 峰值 
写 入 带宽 时 是 用 更 大 的 块 ， 例 如 64 KB 或 128 KB。 用 更 小 的 块 大 小 来 达 
到 峰值 IOPS。 








大 部 分 应 用 不 会 写 这 么 大 的 块 。InnoDB 写 操作 通常 是 16KB 或 512 字 
节 的 块 组 合 到 一 起 写 回 。 因 此 ， 设 备 应 该 只 有 274MB/s 的 写 出 带宽 
这 是 阶段 A 的 情况 ， 在 垃圾 回收 器 开启 和 设备 达到 长 期 稳定 的 性 能 等 级 


Aw 
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在 我 们 的 博客 中 ， 可 以 找到 目前 的 MySQL 基 准 测 试 ， 以 及 在 固态 
硬盘 上 裸 设 备 文件 IO 的 工作 负载 : http:/www.ssdperformanceblog.com 利 


http://www.mysqlperformanceblog.com. 


9.4.4 ESER (SSD) 


SSD 模 拟 SATA 硬 盘 驱 动 器 。 这 是 一 个 兼容 性 功能 : FFIRSATA TRE 
不 需要 任何 特殊 的 驱动 程序 或 接口 。 








英特尔 的 X-25E 驱 动 器 可 能 是 我 们 今天 看 到 在 服务 器 中 最 常见 的 固 
态 硬盘 ， 但 也 有 很 多 其 他 选择 。X-25E 是 为 “企业 ”级 消费 市 场 开 发 的 ， 
但 也 有 用 MLC 存 储 的 X-25M， 这 是 为 笔记 本 电脑 用 户 等 大 众 市 场 准 备 
的 。 上 此外， 英特尔 还 销售 320 系 列 ， 也 有 很 多 人 正在 使 用 。 再 次 ， 这 仅 
仅 是 一 个 供应 商 一 一 还 有 很 多 ， 在 这 本 书 去 印刷 的 时 候 ， 我 们 所 写 的 关 
于 SSD 的 一 些 东 西 可 能 已 经 过 时 。 























关于 SSD 的 好 处 是 ， 它 们 有 大 量 的 品牌 和 型 号 相对 是 比较 便宜 的 ， 
同时 它们 比 硬盘 快 了 很 多 。 最 大 的 缺点 是 ， 它 们 并 不 总 是 像 硬 盘 一 样 可 
靠 ， 这 取 雇 于 品牌 和 型 号 。 直 到 最 近 ， 大 多 数 设备 都 没有 板 载 电 池 ， 但 
大 多 数 设备 上 有 一 个 写 缓 存 来 缓冲 写 入 。 写 入 缓存 在 没有 电池 备份 的 情 
况 下 并 不 能 持久 化 ， 但 是 在 快速 增长 的 写 负载 下 ， 它 不 能 关闭 ， 人 否则 内 
存 存储 无 法 承受 。 所 以 ， 如 果 蔡 用 了 驱动 器 的 蜗 速 缓存 以 获得 真正 持久 
化 的 存储 ， 将 会 更 快 地 耗 完 设备 寿命 ， 在 东 些 情况 下 ， 这 将 导致 保修 失 
效 。 








有 些 广 家 完全 不 急于 告诉 购买 他 们 固态 便 盘 的 客户 关于 SSD 的 特 
点 ， 并 且 他 们 对 设备 的 内 部 架构 等 细节 守 口 如 瓶 。 是 否 有 电池 或 电容 保 
护 写 缓存 的 数据 安全 ， 在 电源 故障 的 情况 下 ， 通 第 是 一 个 晤 而 未 决 的 问 
题 。 在 茶 些 情况 下 ， 驱 动 需 会 接受 茶 用 缓存 的 命令 ， 但 忽略 了 它 。 所 
以 ， 除 非 做 过 崩 尝 试验， 否则 真 的 有 可 能 不 知道 驱动 器 古 否 是 持久 化 
的 ， 我 们 对 一 些 驱 动 右 进行 了 朋 尝 测试， 友 现 了 不 同 的 结果 。 如 今 ， 一 
些 驱 动 器 有 电容 右 保 护 缓存 ， 使 其 可 以 持久 化 ， 但 一 般 来 说 ， 如 果 驱 动 
虱 不 是 目 夺 有 一 个 电池 或 电容 ， 那 么 它 束 没 有 。 这 意味 大 在 断 电 的 情况 
下 不 是 持久 化 的 ， 所 以 可 能 出 现 数据 已 经 损坏 却 还 不 知情 的 情况 。SSD 

















古 否 配置 电容 或 电池 是 我 们 必须 关注 的 特性 。 


通常 ， 使 用 SSD 痢 是 值得 的 。 但 底层 拉 术 的 挑战 是 不 容易 解决 的 。 
很 多 厂家 做 出 的 驱动 器 在 高 负载 下 很 快 束 朋 尝 了 ， 或 不 提供 持续 一 致 的 
性 能 。 一 些 低 痢 的 制造 丙 有 一 个 习惯 ,每 次 发 布 新 一 代 驱 动 器 ， 残 声称 
他 们 已 经 解决 了 老 一 代 的 所 有 问题 。 这 往往 是 不 真实 的 ， 当 然 ， 如 果 关 
心 可 靠 性 和 持续 的 高 性 能 , “企业 级 ”的 设备 通常 值得 它 的 价钱 。 





用 SSD 做 RAID 


我 们 建议 对 SATA ”SSD 盘 使 用 RAID (Redundant Array of 
Inexpensive Disks， 人 磁盘 风 余 阵列 ) 。 单 一 驱动 器 的 数据 安全 是 无 法 让 
人 信服 的 。 


许多 旧 的 RAID 控 制 器 并 不 支持 SSD。 因 为 它们 假设 管理 的 是 机 械 
便 盘 ， 包 括 写 绥 冲 和 写 排 序 这 些 特性 都 是 为 机 械 人 硬盘 而 设计 的 。 这 不 但 
纯 属 无 效 工 作 ， 也 会 增加 响应 时 间 ， 因 为 SSD 芭 露 的 逻辑 位 置 会 被 映 冉 
到 底层 闪存 记忆 体 中 的 任意 位 置 。 现 在 这 种 情况 好 一 点 。 有 些 RAID 控 
制 器 的 型 写 末 尾 有 一 个 字母 ， 表 明 它 们 是 为 SSD 做 了 准备 的 。 例 如 ， 
Adaptec 控 制 器 用 Z 标 识 。 

















然而 ， 即 使 支持 内 存 的 控制 器 ， 也 不 一 定 真 的 就 对 闪存 支持 很 好 。 
例如 ，Vadim 对 Adaptec 5805Z 控 制 器 进行 了 基准 测试 ， 他 用 了 多 种 驱动 
器 做 RAID 10，16 个 并 发 操作 500 GB 的 文件 。 结 果 是 很 糟糕 的 95% 的 
随机 写 延 迟 在 两 位 数 的 毫秒 ， 在 最 坏 的 情况 下 ， 超 过 一 秒 钟 4 。 (期 
望 的 应 该 是 亚 杏 秒 级 写 入 。 ) 











这 种 特定 的 比较 ， 是 一 家 客户 为 了 看 到 Micron SSD 是 否 会 比 64GB 








的 Intel SSD 更 好 而 做 的 ， 该 比较 是 基于 相同 的 配置 的 。 当 为 英特尔 驱动 
虱 进 行 基准 测试 时 ， 我 们 发 现 了 相同 的 性 能 特征 。 因 此 ， 我 们 尝试 了 一 
些 其 他 驱动 器 的 配置 ， 不 管 有 没有 SAS 扩 展 器 ， 看 看 会 发 生 什么 。 表 9-1 
显示 了 这 个 结果 。 





表 9-1: 在 Adaptec RAID 控 制 器 上 用 SSD 进 行 的 基准 测试 


驱动 器 数量 ”厂家 大 小 SAS 扩 展 器 ”随机 读 LS 

34 Intel 64 GB Yes 310 MB/s 130 MB/s 
14 Intel 64 GB Yes 305 MB/s 145 MB/s 
24 Micron 50GB No 350 MB/s 120 MB/s 
34 Intel 50 GB No 350 MB/s 180 MB/s 





这 些 结果 都 没有 达到 我 们 对 这 么 多 驱动 器 的 期 望 。 在 一 般 情 况 下 ， 
RAID 控 制 句 的 性 能 表现 ， 只 能 满足 对 6 一 8 个 驱动 器 的 期 望 ， 而 不 是 几 
十 个 。 原 因 很 简单 ，RAID 控 制 器 达到 了 瓶颈 。 这 个 故事 的 重点 是 ， 在 
对 人 硬件 投入 巨 资 前 ， 应 该 先 仔 细 进 行 基准 测试 一 一 结果 可 能 与 期 望 的 有 
相当 大 的 区 别 。 





9.4.5 PCIe 存储 设备 


相对 于 SATA SSD，PCIe 设 备 没 有 尝试 模拟 硬盘 驱动 器 。 这 种 设计 
是 好 事 : 服务 器 和 硬盘 驱动 器 之 间 的 接口 不 能 完全 发 挥 内 存 的 性 能 。 
SAS/SATA 互 联 带宽 比 PCIe 要 低 ， 所 以 PCIe 对 高 性 能 需求 是 更 好 的 选 
择 。PCIe 设 备 延 迟 也 低 得 多 ， 因 为 它们 在 物理 上 更 靠近 CPU。 

没有 什么 比 得 上 从 PCIe 设 备 上 获得 的 性 能 。 缺 点 就 是 它们 太 贯 


所 有 我 们 熟悉 的 型 号 都 需要 一 个 特殊 的 驱动 程序 来 创建 块 设备 ， 让 


操作 系统 把 它 认 成 一 个 硬盘 驱动 器 。 这 些 张 动 程 序 使 用 着 混合 磨损 均衡 
和 其 他 逻辑 的 集 略 ; 有些 使 用 主机 系统 的 CPU 和 内 存 ， 有 些 使 用 板 载 的 
逻辑 控制 器 和 RAM (内 存 )。 在 许多 场景 下 ， 主 机 系统 有 丰富 的 CPU 

和 RAM 资 源 ， 所 以 相对 于 购买 一 个 自身 有 这 些 资 源 的 卡 ， 利 用 主机 上 

的 资源 实际 上 是 更 划算 的 集 略 。 





我 们 不 建议 对 PCIe 设 备 建 RAID 。 它 们 用 RAID 就 太 昂贵 了 ， 并 且 大 
部 分 设备 无 论 以 何 种 方式 ， 都 有 它们 自己 板 载 的 RAID。 我 们 并 不 真 的 
知道 控制 器 坏 了 以 后 会 怎么 样 ， 但 是 厂商 说 他 们 的 控制 器 通常 跟 网 卡 或 
者 RAID 控 制 嚣 一样 好 ， 看 起 来 确实 是 这 样 。 换 句 话说 ， 这 些 设备 的 平 
均 无 故障 时 间 间 隔 (MTBF) 接近 于 主板 ， 所 以 对 这 些 设 备 使 用 RAID 只 
是 增加 了 大 量 成 本 而 没有 多 少 好 处 。 








有 许多 家 供应 商 在 生产 PCIe 闪 存 卡 。 对 MySQL 用 户 来 说 最 著名 的 
厂商 是 Fusion-io 和 Virident， 但 是 像 Texas Memory Systems、STEC 和 
OCZ 这 样 的 广 商 也 有 用 户 。SLC 和 MLC 都 有 相应 的 PCIe 卡 产品 。 


9.4.6 ”其 他 类 型 的 固态 存储 


除了 SSD 和 PCIe 设 备 ， 也 有 其 他 公司 的 产品 可 以 选择 ， 例 如 Violin 
Memory、SandForce 和 Texas Memory Systems。 这 些 公司 提供 有 几 十 TB 
存储 容量 ， 本 质 上 是 内 存 SAN 的 大 箱子 。 它 们 主要 用 于 大 型 数据 中 心 存 
储 的 整合 。 虽 然 价 格 非 常 昂贵 ， 但 是 性 能 也 非常 高 。 我 们 知道 一 些 使 用 
的 例子 ， 并 在 某 些 场景 下 测量 过 性 能 。 这 些 设备 能 够 提供 相当 好 的 延 
迟 ， 除 了 网 络 往 返 时 间 一 一 例如 ， 通 过 NFS 有 小 于 4 吟 秒 的 延迟 。 








然而 这 些 都 不 适合 一 般 的 MySQL 市 场 。 它 们 的 目标 更 针对 其 他 数 


据 库 ， 如 Oracle， 可 以 用 来 做 共享 存储 集群 。 一 般 情 况 下 ，MySQL 在 如 
此 大 规模 的 场景 下 ， 不 能 有 效 利用 如 此 强大 的 存储 优势 ， 因 为 在 数 十 个 
TB 的 数据 下 MySQL 很 难民 好 地 工作 一 一 MySQL 对 这 样 一 个 庞大 的 数据 
库 的 回答 是 ， 拆 分 、 横 癌 扩 展 和 无 共享 ‘Shared-nothing〉 架 构 。 


虽然 专业 化 的 解决 方案 可 能 能 够 利用 这 些 大 型 存储 设备 一 一 例如 
Infobright 可 能 成 为 候选 人 。ScaleDB 可 以 部 署 在 共享 存储 〈Shared- 
storage) 架构 ， 但 我 们 还 没有 看 到 它 在 生产 环境 应 用 ， 所 以 我 们 不 知道 
其 工作 得 如 何 。 


9.4.7 ”什么 时 候 应 该 使 用 闪存 


回 态 存储 最 适合 使 用 在 任何 有 着 大 量 随机 WO 工作 负载 的 场景 下 。 
随机 WO 通 第 是 由 于 数据 大 于 服务 器 的 内 存 导致 的 。 用 标准 的 硬盘 驱动 
需 ， 受 限于 转速 和 寻 道 延迟， 无 法 提供 很 高 的 IOPS。 内 存 设备 可 以 大 大 
绥 解 这 种 问题 。 














当然 ， 有 时 可 以 简单 地 购买 更 多 内 存 ， 这 样 随机 工作 负载 束 可 以 转 
移 到 内 存 ，L/O 束 不 存在 了 。 但 是 当 无 法 购买 足够 的 内 存 时 ， 内 存 也 可 
以 提供 帮助 。 为 一 个 不 能 总 是 用 内 存 解决 的 问题 是 ， 蜗 否 吐 的 写 入 负 
载 。 增 加 内 存 只 能 帮助 减少 写 入 负载 到 磁盘 ， 因 为 更 多 的 内 存 能 创造 更 
多 的 机 会 来 缓冲 、 合 并 写 。 这 人 允许 把 随机 写 转换 为 更 加 顺序 的 IO。 


然而 ， 这 并 不 能 无 限 地 工作 下 去 ， 一 些 事务 或 插入 繁忙 的 工作 负载 
不 能 从 这 种 方法 中 获 葵 。 闪 存 存 储 在 这 种 情况 下 却 也 有 帮助 。 








单线 程 工作 负载 是 为 一 个 内 存 的 潜在 应 用 场景 。 当 工作 负载 是 单线 


程 的 时 候 ， 它 是 对 延迟 非常 敏感 的 ， 固 态 存 储 更 低 的 延迟 可 以 带 来 很 大 
的 区 别 。 相 反 ， 多 线程 工作 负载 通常 可 以 简单 地 加 大 并 行 化 程度 以 获得 
更 高 的 吞吐 量 。MySQL 复 制 是 单线 程 工作 的 典型 全 于， 它 可 以 从 低 延 
迟 中 获得 很 多 收益 。 在 备 库 跟 不 上 主 库 时 ， 使 用 闪存 存储 往往 可 以 显著 
提高 其 性 能 。 





闪存 也 可 以 为 服务 器 整合 提供 巨大 的 帮助 ， 尤 其 是 PCIe 方 式 的 。 我 
们 已 经 看 到 了 机 会 ， 把 很 多 实例 整合 到 一 全 物理 服务 器 一 一 有 时 高 达 10 
或 15 倍 的 整合 都 是 可 能 的 。 更 多 关于 这 个 话题 的 信息 ， 请 参见 第 11 章 。 








然而 内 存 也 可 能 不 一 定 是 你 要 的 答案 。 一 个 很 好 的 例子 是 ， 像 
InnoDB 日 志文 件 这 样 的 顺序 写 的 工作 有 负载， 内存 不 能 提供 多 少 成 本 与 
性 能 优势 ， 因 为 在 这 种 情况 下 ， 内 存 连 续 写 方面 不 比 标准 硬盘 快 多 少 。 
这 样 的 工作 负载 也 是 高 重 吐 的 ， 会 更 快 耗 尽 内 存 的 寿命 。 在 标准 硬盘 上 
存放 日 志文 件 通 常 是 一 个 更 好 的 主意 ， 用 有 具有 电池 保护 写 缓 存 的 RAID 
控制 器 。 








有 时 答案 在 于 和 内存/ 磁盘 的 比例 ， 而 不 只 是 磁盘 。 如 果 可 以 来 足够 
的 内 存 来 缓存 工作 负载 ， 就 会 发 现 这 更 便宜 ， 并 且 比 购买 内 存 存储 设备 
更 有 效 。 


9.4.8 ”使 用 Flashcache 














虽然 有 很 多 因素 需要 在 闪存 、 人 硬盘 和 RAM 之 间 权 衡 ， 在 存储 层次 
结构 中 ， 这 些 设备 没有 被 当 作 一 个 整体 处 理 。 有 时 可 以 使 用 破 盘 和 内 存 
技术 的 结合 ， 这 束 是 Flashcache。 


Flashcache 是 这 种 技术 的 一 个 实现 ， 可 以 在 许多 系统 上 发 现 类 似 的 
使 用 ， 例 如 Oracle 数 据 库 、ZFS 文 件 系 统 ， 甚 至 许多 现代 的 硬盘 驱动 器 
和 RAID 控 制 嚣 。 下 面 讨论 的 许多 东西 应 用 广泛 ， 但 我 们 将 只 专注 于 
Flashcache， 因 为 它 和 厂商 、 文 件 系 统 无 关 。 





Flashcache 是 一 个 Linux 内 核 模块 ， 使 用 Linux 的 设备 映射 器 (Device 
Mapper) 。 它 在 内 存 和 磁盘 之 间 创 建 了 一 个 中 间 层 。 这 是 Facebook 开 源 
和 使 用 的 技术 之 一 ， 可 以 帮助 其 优化 数据 库 负 载 。 





Flashcache 创 建 了 一 个 块 设备 ， 并 且 可 以 被 分 区 ， 也 可 以 像 其 他 块 
设备 一 样 创 建文 件 系统 ， 特 点 是 这 个 块 设 备 是 由 闪存 和 夏 盘 共同 文 撑 
的 。 闪 存 设备 用 作 读 取 和 写 入 的 智能 高 速 缓存 。 


虚拟 块 设备 远 比 内 存 设备 要 大 ， 但 是 没关系 ， 因 为 数据 最 终 都 存储 
在 磁盘 上 。 内 存 设备 只 是 去 缓冲 写 入 和 缓存 读 取 ， 有 效 弥 补 了 服务 器 内 
FA BINA OY, 











这 种 性 能 有 多 好 呢 ? Flashcache 似 乎 有 相对 较 高 的 内 核 开 销 。【 设 
备 映 射 并 不 总 是 像 看 起 来 那么 有 效 ， 但 我 们 还 没 深入 调理 找 出 原因 。) 
但 是 ， 尽 管 Flashcache 理 论 上 可 能 更 高 效 ， 但 最 终 的 性 能 表现 并 不 如 底 
层 的 内存 存储 那么 好 ， 不 过 它 仍然 比 磁盘 快 很 多 ， 所 以 还 是 值得 考虑 的 


方案 。 





我 们 用 包含 数 百 个 基准 测试 的 一 系列 测试 来 评估 Flashcache 的 性 
能 ， 但 是 我 们 发 现在 人 工 模 拟 的 工作 负载 下 ， 测 出 有 意义 的 数据 是 非常 
困难 的 。 于 是 我 们 得 出 绪论， 虽然 并 不 清楚 Flashcache 通 常 对 写 负 载 有 
多 大 好 处 ， 但 是 对 读 肯 定 是 有 帮助 的 。 于 是 它 适合 这 样 的 情况 使 用 : 有 
大 量 的 读 WO， 并 且 工 作 集 比 内 存 大 得 多 。 





除了 实验 室 测试 ， 我 们 有 一 些 生产 环境 中 应 用 Flashcache 的 经 验 。 
想到 的 一 个 例子 是 ， 有 个 4TB 的 数据 库 ， 这 个 数据 库 遇 到 了 很 大 的 复制 
延迟 。 我 们 给 系统 加 了 半 个 TB 的 Virident PCIe 卡 作为 存储 。 然 后 安装 了 
Flashcache， 并 且 把 PCIe 卡 作为 绑 定 设备 的 闪存 部 分 ， 复制 速度 就 翻 了 


Ms 





当 闪 存 卡 用 得 很 满 时 使 用 Flashcache 是 最 经 济 的 ， 因 此 选择 一 张 写 
得 很 满 时 其 性 能 不 会 降低 多 少 的 卡 非常 重要 。 这 就 是 为 什么 我 们 选择 
Virident 卡 。 


Flashcache 就 是 一 个 缓存 系统 ， 所 以 就 像 任何 其 他 缓存 一 样 ， 它 也 
有 预 热 问题 。 虽 然 预 热 时 间 可 能 会 非常 长 。 例 如 ， 在 我 们 刚才 提 到 的 情 
况 下 ，Flashcache 需 要 一 个 星期 的 预 热 ， 才 能 真正 对 性 能 产生 帮助 。 


应 该 使 用 Flashcache 吗 ? 根据 具体 情况 可 能 会 有 所 不 同 ， 所 以 我 们 
认为 在 这 一 点 上 ， 如 果 你 觉得 不 确定 ， 最 好 得 到 专家 的 意见 。 理 解 
Flashcache 的 机 制 和 它们 如 何 影 响 你 的 数据 库 工 作 集 大 小 是 很 复杂 的 ， 
在 数据 库 下 层 〈( 至 少 )， 有 三 层 存 储 : 








。 首先 ， 是 InnoDB 绥 冲 池 ， 它 的 大 小 跟 工作 集 大 小 一 起 可 以 决定 绥 
存 的 命中 率 。 绥 存 命 中 是 非常 快 的 ， 啊 应 时 间 非 常 均匀 。 

。 在 缓冲 池 中 没有 命中 ， 就 会 到 Flashcache 设 备 上 去 取 ， 这 就 会 产生 
分 布 比较 复杂 的 响应 时 间 。Flashcache 的 缓存 命中 率 由 工作 集 大 小 
和 闪存 设备 大 小 决定 。 从 闪存 上 命中 比 在 磁盘 上 查找 要 快 得 多 。 

。 Flashcache 设 备 缓存 也 没有 命中 ， 那 就 得 到 磁盘 上 找 ， 这 也 会 看 到 
分 布 相当 均匀 的 比较 慢 的 啊 应 时 间 。 


























有 可 能 还 有 更 多 层次 : 例如 ，SAN 或 RAID 控 制 器 的 缓存 。 





这 有 一 个 思维 实验 ， 说 明 这 些 层 是 如 何 交 互 的 。 很 显然 ， 从 
Flashcache 设 备 访问 的 响应 时 间 不 会 像 直 接 访 问 闪存 设备 那么 稳定 和 高 
速 。 但 是 想象 一 下 ， 假 设 有 1TB 的 数据 ， 其 中 100 GB 在 很 长 一 段 时 间 会 
承受 99% 的 IO 操作 。 也 就 是 说 ， 大 部 分 时 候 99% 的 工作 集 只 有 100 GB. 





现在 ， 假 设 有 以 下 的 存储 设备 : 一 个 很 大 的 RAID 卷 ， 可 以 执行 
1000 IOPS， 以 及 一 个 可 以 达到 100000 IOPS 的 更 小 的 闪存 设备 。 闪 存 设 
备 不 足以 存放 所 有 的 数据 一 一 假设 只 有 128 GB 一 一 因此 单独 使 用 闪存 不 
是 一 种 可 能 的 选择 。 如 果 用 闪存 设备 做 Flashcache， 就 可 以 期 望 缓存 命 
中 远 远 快 于 磁盘 检索 ， 但 Flashcache 整 体 比 单独 使 用 闪存 设备 要 慢 。 我 
们 坚持 用 数字 说 话 ， 如 果 90% 的 请 求 落 到 Flashcache 设 备 ， 相 当 于 达到 
50000 IOPS。 这 个 思维 实验 的 结果 是 什么 呢 ? 有 两 个 要 点 : 








1. 系统 使 用 Flashcache 比 不 使 用 的 性 能 要 好 很 多 ， 因 为 大 多 数 在 缓冲 
池 未 命中 的 页 面 访问 都 被 缓存 在 闪存 卡 上 ， 相 对 于 磁盘 可 以 提供 快 
得 多 的 访问 速度 。 〈99% 的 工作 集 可 以 完全 放 在 闪存 卡 上 。 ) 

2. Flashcache 设 备 上 有 90% 的 命中 率 意 味 着 有 10% 没 有 命中 。 因 为 底层 
的 磁盘 只 能 提供 1000 IOPS， 因 此 整个 Flashcache 设 备 可 以 支持 
10000 的 IOPS。 为 了 明白 为 什么 是 这 样 的， 想象 一 下 如 果 我 们 要 求 
不 止 于 此 会 发 生 什 么 : 10% 的 IO 操作 在 缓存 中 没有 命中 而 落 到 了 
RAID 卷 上 ， 则 肯定 要 求 RAID 卷 提供 超过 1000 IOPS， 很 显然 是 没 
法 处 理 的 。 因 此 ， 即 使 Flashcache 比 闪存 卡 慢 ， 系 统 作 为 一 个 整体 
仍然 受 限 于 RAID 卷 ， 不 止 是 闪存 卡 或 Flashcache。 














归根 到 底 ，Flashcache 是 否 合 适 是 一 个 复杂 的 决定 ， 涉 及 的 因素 很 
多 。 一般 情况 下 ， 它 似乎 最 适合 以 读 为 主 的 VO 密集 型 负载 ， 并 有 晶 工 作 
集 太 大 ， 用 内 存 优化 并 不 经 济 的 情况 。 


9.4.9 ”优化 固态 存储 上 的 MySQL 


如 果 在 内 存 上 运行 MySQL， 有 一 些 配置 参数 可 以 提供 更 好 的 性 
能 。InnoDB 的 默认 配置 从 实践 来 看 是 为 硬盘 驱动 器 定制 的 ， 而 不 是 为 
固态 硬盘 定制 的 。 不 是 所 有 版 本 的 InnoDB 都 提供 同样 等 级 的 可 配置 
性 。 无 其 是 很 多 为 提升 闪存 性 能 设计 的 参数 首先 出 现在 Percona Server 
中 ， 尽 管 这 些 参数 很 多 已 经 在 Oracle 版 本 的 InnoDB 中 实现 ， 或 者 计划 在 
未 来 的 版 本 中 实现 。 





改进 包括 : 
增加 InnoDB 的 1/0 容 量 


内 存 比 机 械 人 硬盘 支持 更 高 的 并 发 量 ， 所 以 可 以 增加 读 写 VO 线 
程 数 到 10 或 15 来 获得 更 好 的 结果 。 也 可 以 在 2000 一 20000 范 围 内 调 
整 innodb_io_capacity 选 项 ， 这 要 看 设备 实际 上 能 文 撑 多 大 的 IOPS。 
尤其 是 对 Oracle 官 方 的 InnoDB 这 个 很 有 必要 ， 内 部 有 更 多 算法 依赖 
TATRA: 


让 lnnoDB 日 志文 件 更 大 


即使 最 近 版 本 的 InnoDB 中 改进 了 衣 误 恢复 算法 ， 也 不 应 该 把 
磁盘 上 的 日 志文 件 调 得 太 大 ， 因 为 朋 溃 恢复 时 需要 随机 IO 访问 ， 
会 导致 恢复 需要 很 长 一 段 时 间 。 内 存 存 储 让 这 个 过 程 快 很 多 ， 上 所 以 
可 以 设置 更 大 的 InnoDB 日 志文 件 ， 以 帮助 提升 和 稳定 性 能 。 对 于 
Oracle 官 方 的 mnoDB， 这 个 设置 尤其 重要 ， 它 维持 一 个 持续 的 脏 页 
刷新 比例 有 点 矿 烦 ， 除 非 有 相当 大 的 日 志文 件 一 一 4GB 或 者 更 大 的 
日 志文 件 ， 在 写 的 时 候 对 服务 器 来 说 是 个 不 错 的 选择 。Percona 





Server 和 MySQL 5.6 支 持 大 于 4GB 的 日 志文 件 。 
把 一 些 文件 从 闪存 转移 到 RAID 


除了 把 InnoDB 日 志文 件 设置 得 更 大 ， 把 日 志文 件 从 数据 文件 
中 拿 出 来 ， 单 独 放 在 一 个 带 有 电池 保护 写 缓存 的 RAID 组 上 而 不 是 
固态 设备 上 ， 也 是 个 好 主意 。 这 么 做 有 几 个 原因 。 一 个 原因 是 日 志 
文件 的 VO 类 型 ， 在 闪存 设备 上 不 比 在 这 样 一 个 RAID 组 上 要 快 。 
InnoDB 写 日 志 是 以 512 字 节 为 单位 的 顺序 MO 写 下 去 ， 并 且 除 了 裔 这 
恢复 会 顺序 读 取 ， 其 他 时 候 绝 不 会 去 读 。 这 样 的 MO 操作 类 型 用 内 
存 设 备 是 很 浪费 的 。 并 且 把 小 的 写 入 操作 从 闪存 转移 到 RAID 卷 也 
是 个 好 主意 ， 因 为 很 小 的 写 入 会 增加 闪存 设备 的 写 放 大 因子 ， 会 影 
啊 一 些 设备 的 使 用 寿命 。 大 小 写 操作 混合 到 一 起 也 会 引起 某 些 设备 
延 时 的 增加 。 














基于 相同 的 原因 ， 有 时 把 二 进 制 日 志文 件 转移 到 RAID 卷 也 会 
有 好 处 。 并 且 你 可 能 会 认为 ipdatal 文 件 也 适合 放 在 RAID 卷 上 ， 
为 ibdatal 文 件 包 含 双 写 绥 冲 (Doublewrite Buffer) 和 插入 绥 冲 
(Insert Buffer) ， 尤 其 是 双 写 缓冲 会 进行 很 多 重复 写 入 。 在 
Percona Server 中 ， 可 以 把 双 写 缓冲 从 ibdatal 文 件 中 拿 出 来 ， 单 独 存 
放 到 一 个 文件 ， 然 后 把 这 个 文件 放 在 RAID 卷 上 。 





还 有 另 一 个 选择 : 可 以 利用 Percona Server 的 特性 ， 使 用 4KB 的 
块 写 事务 日 志 ， 而 不 是 512 字 节 。 因 为 这 会 匹配 大 部 分 闪存 本 身 的 
块 大 小 ， 所 以 可 以 获得 更 好 的 效果 。 所 有 的 上 述 建议 是 对 特定 人 硬件 
而 言 的 ， 实 际 操作 的 时 候 可 能 会 有 所 不 同 ， 所 以 在 大 规模 改动 存储 
布局 之 前 要 确保 已 经 理解 相关 的 因素 一 一 并 辅 以 适当 的 测试 。 


禁用 预 读 


预 读 通过 通知 和 预测 读 取 模式 来 优化 设备 的 访问 ， 一 旦 认为 系 
些 数据 在 未 来 需要 被 访问 到 ， 束 会 从 设备 上 读 取 这 些 数 据 。 实 际 上 
在 InnoDB 中 有 两 种 类 型 的 预 读 ， 我 们 发 现在 多 种 情况 下 的 性 能 问 
题 ， 其 实 都 是 预 读 以 及 它 的 内 部 工作 方式 造成 的 。 在 许多 情况 下 开 
销 比 收益 大 ， 尤 其 是 在 内 存 存 储 ， 但 我 们 没有 确 疼 的 证 据 或 指导 ， 
禁用 预 读 究 况 可 以 提高 多 少 性 能 。 





在 MySQL 5.1 的 InnoDB Plugin 中 ，MySQL 禁 用 了 所 谓 的 “随机 
预 读 ”， 然 后 在 MySQL ”5.5 又 重新 局 用 了 它 ， 可 以 在 配置 文件 用 一 
个 参数 配置 。Percona ”Server 能 让 你 在 旧版 本 里 也 一 样 可 以 配置 为 
random (EPL) 或 linear read-ahead (线性 预 读 ) 。 


配置 1nnoDB 刷 新 算法 


这 决定 InnoDB 什 么 时 候 、 刷 新 多 少 、 刷 新 哪些 页 面 ， 这 是 个 
非常 复杂 的 主题 ， 这 里 我 们 没有 足够 的 篇 幅 来 讨论 这 些 具 体 的 细 
节 。 这 也 是 个 研究 比较 活跃 的 主题 ， 并 且 实 际 上 在 不 同 版 本 的 
InnoDB 和 MySQL 中 有 多 种 有 效 的 算法 。 


标准 InnoDB 算 法 没有 为 闪存 存储 提供 多 少 可 配置 性 ， 但 是 如 
果 用 的 是 Percona XtraDB (包含 在 Percona Server 和 MariaDB 中 ) , 
我 们 建议 设置 innodb _ adaptive_checkpoint 选 项 为 keep_average， 
不 要 用 默认 值 estimate。 这 可 以 确保 更 持续 的 性 能 ， 并 且 避 免 服 务 
器 抖动 ， 因 为 estimate 算 法 会 在 闪存 存储 上 引起 抖动 。 我 们 专门 为 
闪存 存储 开发 了 keep_average， 因 为 我 们 意识 到 对 于 闪存 设备 ， 把 
锅 望 操作 的 大 量 WO 推 到 设备 上 ， 并 不 会 引起 瓶 贷 或 发 生 抖动 。 


另外 ， 建 议 为 内 存 设备 设 
置 innodb flush_neighbor pages=0。 这 样 可 以 避免 imnnoDB 和 尝试 查 
找 相 邻 的 脏 页 一 起 刷 写 。 这 个 算法 可 能 会 导致 更 大 块 的 写 、 更 高 的 
延迟 ， 以 及 内 部 竞争 。 在 闪存 存储 上 这 完全 没 必 要 ， 也 不 会 有 什么 
收益 ， 因 为 相 邻 的 页 面 单独 刷新 不 会 冲击 性 能 。 


禁用 双 写 缓冲 的 可 能 





相对 于 把 双 写 缓存 转移 到 闪存 设备 ， 可 以 考虑 直接 关闭 它 。 有 
些 厂 商 声称 他 们 的 设备 支持 16KB 的 原子 写 入 ， 使 得 双 写 缓冲 成 为 
多 余 的 。 如 有 果 需 要 确保 整个 存储 系统 被 配置 得 可 以 文 持 16KB 的 原 
子 写 入 ， 通 常 需要 0_DI1RECT 和 XFS 文件 系统 。 





没有 确凿 的 证 据 表 明 原 子 操作 的 说 法 是 真实 的 ， 但 由 于 闪存 存 
储 的 工作 方式 ， 我 们 相信 写 数 据 文 件 发 生 页 面 写 一 部 分 的 情况 是 大 
大 减少 的 ， 并 且 这 个 收益 在 内 存 设备 上 比 在 传统 磁盘 上 要 高 得 多 ， 
禁用 双 写 缓冲 在 闪存 存储 上 可 以 提高 MySQL 整 体 性 能 差不多 50%， 
尽管 我 们 不 知道 这 是 不 是 100% 安 全 的 ， 但 是 你 可 以 考虑 下 这 么 
做 。 





限制 插入 缓冲 大 小 


插入 绥 冲 《在 新 版 InnoDB 中 称 为 变更 缓冲 (Change Buffer) ) 
设计 来 用 于 减少 当 更 新 行 时 不 在 内 存 中 的 非 唯一 索引 引起 的 随机 
WO。 在 人 硬盘 驱动 嚣 上， 减少 随机 WO 可 以 带 来 巨大 的 性 能 提升 。 对 
某 些 类 型 的 工作 负载 ， 当 工作 集 比 内 存 大 很 多 时 ， 差 异 可 能 达到 近 
两 个 数量 级 。 插 入 缓冲 在 这 类 场景 下 就 很 有 用 。 








然而 ， 对 闪存 就 没有 必要 了 。 闪 存 上 随机 LO 非常 快 ， 所 以 即 

使 完全 禁用 插入 缓冲 ， 也 不 会 市 来 太 大 影响 ， 尺 省 如 此 ， 可 能 你 也 
不 想 完 全 禁用 插入 缓存 。 所 以 最 好 还 是 启用 ， 因 为 UO 只 是 修改 不 
在 内 存 中 的 索引 页 面 的 开销 的 一 部 分 。 对 内 存 设备 而 言 ， 最 重要 的 
配置 是 控制 最 大 允许 的 插入 缓冲 大 小 ， 可 以 限制 为 一 个 相对 比较 小 
的 值 ， 而 不 是 让 它 无 限制 地 增长 ， 这 可 以 避免 消耗 设备 上 的 大 量 空 
间 ， 并 避免 ibdatal 文 件 变 得 非常 大 的 情况 。 在 本 书写 作 的 时 候 ， 标 
; 准 ImnnoDB 还 不 能 配置 插入 缓存 的 容量 上 限 ， 但 是 在 Percona 
XtraDB (Percona Server 和 MariaDB 都 包含 XtraDB ) 里 可 以 。 
MySQL 5.6 里 也 会 增加 一 个 类 似 的 变量 。 








除了 上 述 的 配置 建议 ， 我 们 还 提出 或 讨论 了 其 他 一 些 闪存 优化 策 
略 。 然 而 ， 不 是 所 有 的 策略 都 非常 容易 明白 ， 所 以 我 们 只 是 提 到 了 一 部 
分 ， 最 好 自己 研究 在 具体 情况 下 的 好 处 。 首 先是 InnoDB 的 页 大 小 。 我 
们 发 现 了 不 同 的 结果 ， 所 以 我 们 现在 还 没有 一 个 明确 的 建议 。 好 消息 
是 ， 在 Percona Server 中 不 需要 重 编译 也 能 配置 页 面 大 小 ， 在 MySQL 5.6 
中 这 个 功能 也 可 能 实现 。 以 前 版 本 的 MySQL 需 要 重新 编译 服务 器 才能 
使 用 不 同 大 小 的 页 面 ， 所 以 大 部 分 情况 都 是 运行 在 默认 的 16KB 页 面 。 

当 页 面 大 小 更 容易 让 更 多 人 进行 实验 时 ， 我 们 期 待 更 多 非 标准 页 面 大 小 
的 测试 ， 可 能 能 从 中 得 到 很 多 重要 的 结论 。 











另 一 个 提 到 的 优化 是 InnoDB 页 面 校 验 〈《Checksum ) 的 人 蔡 代 算法 。 
当 存 储 系 统 啊 应 很 快 时 ， 校 验 值 计算 可 能 开始 成 为 TO 相关 操作 中 显著 
影响 时 间 的 因素 ， 并 且 对 某 些 人 来 说 这 个 计算 可 能 瞪 代 WO 成 为 新 的 租 
贷 。 我 们 的 基准 测试 还 没有 得 出 可 适用 于 普 衣 场景 的 结论 ， 所 以 每 个 人 
的 情况 可 能 有 所 不 同 。Percona XtraDB 人 允许 修改 校 验算 法 ,MySQL 5.6 
也 有 了 这 个 功能 。 


可 能 已 经 提醒 过 了 ， 我 们 提 到 的 很 多 功能 和 优化 在 标准 版 本 的 
InnoDB 中 是 无 效 的 。 我 们 希望 并 且 相 信 我 们 引入 Percona Server 和 
XtraDB 中 的 改进 点 ， 最 终 将 会 被 广大 用 户 接 受 。 与 此 同时 ， 如 有 果 正 使 用 
Oracle 官 方 MySQL 分 发 版 本 ， 依 然 可 以 对 服务 器 采取 措施 为 内 存 进 行 优 
化 。 建 议 使 用 innodb_file_per_table， 并 且 把 数据 文件 目录 放 到 闪存 
设备 。 然 后 移动 ibdatal1 和 日 志文 件 ， 以 及 其 他 所 有 日 志文 件 (二 进 制 日 
志 、 复 制 日 志 ， 等 等 ) ， 到 RAID 卷 ， 正 如 我 们 之 前 讨论 的 。 这 会 把 随 
机 IO 集中 到 闪存 设备 上 ， 然 后 把 大 部 分 顺序 写 入 的 压力 尽 可 能 转移 出 
闪存， 因而 可 以 节省 闪存 空间 并 且 减 少 麻 损 。 





另外 ， 所 有 版 本 的 MySQL 服 务 器 ， 都 应 该 确认 超 线程 开店 了 。 当 
使 用 闪存 存储 时 ， 这 有 很 大 的 帮助 ， 因 为 磁盘 通 稼 不 再 是 瓶颈 ， 任 务 会 
更 多 地 从 IO 密集 变 为 CPU 密集 。 





9.5 ”为 备 库 选择 硬件 


为 备 库 选 择 硬件 与 为 主 库 选 择 便 件 很 相似 ， 但 是 也 有 些 不 同 。 如 宋 
正 计划 着 建 一 个 备 库 做 容 灾 ， 通 币 需 要 跟 主 库 关 不 多 的 配置 。 不 管 备 库 
古 不 是 仅仅 作为 一 个 主 库 的 备用 库 ， 痢 应 该 强大 到 足以 承担 主 库 上 发 生 
的 所 有 写 入 ， 额 外 的 不 利 因素 是 备 库 只 能 序列 化 串 行 执行 。《〈 下 一 草 有 
更 多 关于 这 方面 的 内 容 ) 。 











备 库 便 件 主要 考虑 的 是 成 本 : 需要 在 备 库 硬 件 上 人 花费 跟 主 库 一 样 多 
的 成 本 吗 ? 可 以 把 备 库 配 置 得 不 一 样 以 便 从 备 库 上 获得 更 多 性 能 吗 ? 如 
果 备 库 跟 主 库 工 作 负 载 不 一 样 ， 可 以 从 不 一 样 的 硬件 配置 上 获得 隐 含 的 
收益 吗 ? 





这 一 切 都 取决 于 备 库 是 否 只 是 备用 的 ， 你 可 能 希望 主 库 和 备 库 有 相 
同 的 硬件 和 配置 ， 但 是 ， 如 果 只 是 用 复制 作为 扩展 更 多 读 容 量 的 方法 ， 
那 备 库 可 以 有 多 种 不 同 的 捷径 。 例 如 ， 可 能 在 备 库 使 用 不 一 样 的 存储 引 
擎 ， 并 且 有 些 人 使 用 更 便宜 的 便 件 或 者 用 RAID 0 代 蔡 RAID 5 或 RAID 
10。 也 可 以 取消 一 些 一 致 性 和 持久 性 的 保证 让 备 库 做 更 少 的 工作 。 








这 些 措施 在 大 规模 部 署 的 情况 下 其 有 很 好 的 成 本 效益 ， 但 是 在 小 规 
模 的 情况 下 ， 可 能 只 会 使 事情 变 得 更 加 复杂 。 在 实践 中 ， 似 乎 大 多 数 人 
都 会 选择 以 下 两 种 策略 为 备 库 选择 硬件 : 主 备 使 用 相同 的 硬件 ， 或 为 主 
库 购 买 新 的 硬件 ， 然 后 让 备 库 使 用 主 库 淘 汰 的 老 硬 件 。 














在 备 库 很 难 跟 上 主 库 时 ， 使 用 固态 硬盘 有 很 大 的 意义 。 很 好 的 随机 
LO 性 能 有 助 于 绥 解 单个 复制 线程 的 影响 。 


9.6 RAID 性 能 优化 


存储 引擎 通常 把 数据 和 索引 都 保存 在 一 个 大 文件 中 ， 这 意味 着 用 
RAID (Redundant Array of Inexpensive Disks， 磁 盘 元 余 阵 列 ) 存储 大 量 
数据 通常 是 最 可 行 的 方法 多 。RAID 可 以 帮助 做 元 余 、 扩 展 存 储 容量 、 
缓存 ， 以 及 加 速 。 但 是 从 我 们 看 到 的 一 些 优化 案例 来 次，RAID 上 有 多 
种 多 样 的 配置 ， 为 需求 选择 一 个 合适 的 配置 非常 重要 。 








我 们 不 想 履 盖 所 有 的 RAID 等 级 ， 或 者 深入 细节 来 分 析 不 同 的 RAID 
等 级 分 别 如 何 存储 数据 。 关 于 这 个 主题 有 很 多 好 资料 ， 在 一 些 书籍 和 在 
线 文 档 可 以 找到 9。 因此 ， 我 们 专注 于 怎样 配置 RAID 来 满足 数据 库 服 
务 器 的 需求 。 最 重要 的 RAID 级 别 如 下 : 








RAID 0 


如 果 只 是 简单 地 评估 成 本 和 性 能 ，RAID 0 是 成 本 最 低 和 性 能 最 
高 的 RAID 配 置 《但 是 ， 如 条 考虑 数据 恢复 的 因素 ，RAID 0 的 代价 
会 非常 高 ) 。 因 为 RAID 0 没有 元 余 ， 建 议 只 在 不 担心 数据 丢失 的 时 
候 使 用 ， 例 如 备 库 或 者 因 茶 些 原因 只 是 “一 次 性 ”使 用 的 时 候 。 典 型 
的 案例 是 可 以 从 另 一 全 备 库 轻 易 区 隆 出 来 的 备 库 服 务 器 。 再 次 说 
H, RAID 0 没有 提供 任何 元 余 ， 即 使 R 在 RAID 中 表示 元 余 。 实 际 
E, RAID 0 阵列 的 损坏 概率 比 单 块 磁盘 要 高 ， 而 不 是 更 低 ! 














RAID 1 





RAID 1 在 很 多 情况 下 提供 很 好 的 读 性 能 ， 并 且 在 不 同 的 磁盘 间 


见 余 数据 ， 所 以 有 很 好 的 见 余 性 。RAID 1 在 读 上 比 RAID ”0 快 一 

些 。 它 非常 适合 用 来 存放 日 志 或 者 类 似 的 工作 ， 因 为 顺序 写 很 少 需 
要 确 层 有 很 多 磁盘 《随机 写 则 相反 ， 可 以 从 并 发 中 受益 ) o KEE 
也 和 是 只 有 两 块 硬盘 又 需要 元 余 的 低 端 服务 器 的 选择 。 











RAID 0 和 RAID 1 很 简单 ， 在 软件 中 很 好 实现 。 大 部 分 操作 系 
统 可 以 很 简单 地 用 软件 创建 RAID 0 和 RAID 1. 


RAID 5 





RAID 5 有 点 吓人 ， 但 是 对 某 些 应 用 ， 这 是 不 可 避免 的 选择 ， 
为 价格 或 者 磁盘 数量 〈 例 如 需要 的 容量 用 RAID ”1 无 法 满足 ) 的 原 
因 。 它 通过 分 布 奇偶 校 验 块 把 数据 分 散 到 多 个 磁盘 ， 这 样 ， 如 有 果 任 
何 一 个 盘 的 数据 失效 ， 都 可 以 从 奇偶 校 验 块 中 重建 。 但 如 果 有 两 个 
磁盘 失效 了 ， 则 整个 卷 的 数据 无 法 恢复 。 就 每 个 存储 单元 的 成 本 而 
言 ， 这 是 最 经 济 的 元 余 配 置 ， 因 为 整个 阵列 只 额外 消耗 了 一 块 磁盘 
的 存储 空间 。 














在 RAID 5 上 随机 写 是 昂贵 的 ， 因 为 每 次 写 需 要 在 底层 磁盘 发 生 
两 次 读 和 两 次 写 ， 以 计算 和 存储 校 验 位 。 如 果 写 操作 是 顺序 的 ， 那 
么 执行 起 来 会 好 一 些 ， 或 者 有 很 多 物理 磁盘 也 行 。 另 外 说 一 下 ， 随 
机 读 和 顺序 读 都 能 很 好 地 在 RAID 5 下 执行 和。RAID 5 用 作 存 放 数 
据 或 者 日 志 是 一 种 可 接受 的 选择 ， 或 者 是 以 读 为 主 的 业务 ， 不 需要 
消耗 太 多 写 1O 的 场景， 


RAID 5 最 大 的 性 能 消耗 发 生 在 磁盘 失效 时 ， 因 为 数据 需要 重 分 
布 到 其 他 磁盘 。 这 会 严重 影响 性 能 ， 如 果 有 很 多 磁盘 会 更 糟 糙 。 如 
果 在 重建 数据 时 还 保持 服务 器 在 成 服务 那 就 别 指望 重建 的 速度 或 








者 阵列 的 性 能 会 好 。 如 果 使 用 RAID 5， 最 好 有 一 些 机 制 可 以 做 故障 
迁移 ， 当 有 问题 的 时 候 让 一 合 机 器 不 再 提供 服务 ， 另 一 台 接 管 。 不 
管 怎样 ， 对 系统 做 一 下 故障 恢复 时 的 性 能 测试 很 有 必要 ， 这 样 就 可 
以 知道 故障 恢复 时 的 性 能 表现 到 底 如 何 。 如 果 一 块 磁 盘 失 效 ， 
RAID 组 在 重建 过 程 中 ， 会 导致 磁盘 性 能 下 降 ， 使 用 这 个 存储 的 服 
务 器 整体 性 能 可 能 会 不 成 比例 地 被 影响 到 慢 两 倍 到 五 倍 。 





RAID 5 的 奇偶 校 验 块 会 带 来 额外 的 性 能 开销 ， 这 会 限制 它 的 可 
扩展 性 ， 超 过 10 块 硬盘 后 RAID 5 就 不 能 很 好 地 扩展 ，RAID 缓 存 也 
会 有 些 问题 。RAID 5 的 性 能 严重 依赖 于 RAID 控 制 右 的 缓 仔 ， 这 可 
能 跟 数 据 库 服 务 器 需要 的 缓存 冲突 了 。 我 们 稍 后 会 讨论 缓存 。 





尽管 RAID 5 有 这 么 多 问题 ， 但 有 个 有 利 因 素 是 它 非常 受 欢迎 。 
因此 ，RAID 控 制 器 往往 针对 RAID 5 做 了 高 度 优化 ， 虽 然 有 理论 极 
限 ， 但 是 智能 控制 器 充分 利用 高 速 缓存 使 得 RAID 5 在 某 些 场景 下 有 
时 可 以 达到 接近 RAID 10 的 性 能 。 实 际 上 这 可 能 反映 了 RAID 10 的 
控制 器 缺少 很 好 的 优化 ， 但 不 管 是 什么 原因 ， 这 就 是 我 们 所 见 到 
的 。 





RAID 10 








RAID ”10 对 数据 存储 是 个 非常 好 的 选择 。 它 由 分 片 的 镜像 组 
成 ， 所 以 对 读 和 写 都 有 良好 的 扩展 性 。 相 对 于 RAID 5， 重 建 起 来 很 
简单 ， 速 度 也 很 快 。 另 外 RAID 10 还 可 以 在 软件 层 很 好 地 实现 。 


当 失 去 一 块 磁盘 时 ， 性 能 下 降 还 是 比较 明显 的 ， 因 为 条 带 可 能 
成 为 瓶颈 03。 性 能 可 能 下 降 为 50%， 具 体 要 看 工作 负载 。 需 要 注意 
的 一 件 事 是 ，RAID 控 制 器 对 RAID ”10 采用 了 一 种 “串联 镜像 ”的 实 


现 。 这 不 是 最 理想 的 实现 ， 由 于 条 剖 化 的 缺点 是 “了 最 经 常 访 问 的 数 
据 可 能 仅 被 放置 在 一 对 机 械 磁 盘 上 ， 而 不 是 分 布 很 多 份 ，” 所 以 可 


能 会 遇 到 性 能 不 佳 的 情况 。 


RAID 50 


RAID 50 由 条 带 化 的 RAID5 组 成 ， 如 果 有 很 多 盘 的 话 ， 这 可 能 
是 RAID 5 的 经 济 性 和 RAID 10 的 高 性 能 之 间 的 一 个 折 中 。 它 的 主要 
用 处 是 存放 非常 庞大 的 数据 集 ， 例 如 数据 仓库 或 者 非常 庞大 的 


OLTP 系 统 。 


表 9-2 是 多 种 RAID 配 置 的 总 结 。 


表 9-2: RAID 等 级 之 间 的 比较 





等 级 概要 TLR 
RAID 0 便宜 ， 快 速 ， 和 危险 No 
RAID 1 高 速 读 ， 简 单 ， 安 全 Yes 








RAID 5 安全 


~ 


速度 ) 成 本 折 中 Yes 
RAID 10 昂贵 ， 高 速 ， 安 全 Yes 
RAID 50 为 极 大 的 数据 存储 服务 Yes 

















2(N + 1) 





mR 
Yes 
Yes 
Yes 
Yes 
Yes 


Sik 

Yes 

No 
依赖 于 最 慢 的 盘 
Yes 

Yes 


9.6.1 RAID 的 故障 转移 、 恢 复 和 镜像 


RAID 配 置 (除了 RAID 0) 都 提供 了 宛 余 。 这 很 重要 ， 但 很 容易 让 
人 低估 磁盘 同时 发 生 故 障 的 可 能 性 。 千 万 不 要 认为 RAID 能 提供 一 个 强 


有 力 的 数据 安全 性 保证 09。 








RAID 不 能 消除 甚至 减少 备份 的 需求 。 当 出 现 问 题 的 时 候 ， 恢 复 时 
间 要 看 控制 右 、RAID 等 级 、 阵 列 大 小 、 硬 盘 速 度 ， 以 及 重建 阵列 时 古 
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人 硬盘 在 完全 相同 的 时 间 损 坏 是 有 可 能 的 。 例 如 ， 峰 值 功率 或 过 热 ， 
可 以 很 容易 地 废 挥 两 个 或 更 多 的 磁盘 。 然 而， 更 常见 的 是 ， 两 个 密切 相 
关 的 磁盘 中 出 现 故 障 。 许 多 这 样 的 隐患 可 能 被 忽视 了 。 一 个 常见 的 情 
况 是 ， 很 少 被 访问 的 数据 ， 在 物理 媒介 上 损坏 了 。 这 可 能 几 个 月 都 检测 
不 到 ， 直 到 等 试 读 取 这 份 数 据 ， 或 妃 一 个 硬盘 也 失效 了 ， 然 后 RAID 控 
制 右 答 试 使 用 损坏 的 数据 来 重建 阵列 。 越 大 的 人 硬盘 驱动 器 ， 越 容易 发 生 
这 种 情况 。 








这 就 是 为 什么 做 RAID 阵 列 的 监控 如 此 重要 。 大 部 分 控制 器 提供 了 
一 些 软件 来 报告 阵列 的 状态 ， 并 且 需 要 持续 跟踪 这 些 状态 ， 因 为 不 这 么 
做 可 能 就 会 名 略 了 驱动 器 失效 。 你 可 能 丧失 恢复 数据 和 发 现 问 题 的 时 
机 ， 当 第 二 块 硬 盘 损坏 时 ， 已 经 晚 了 。 因 此 应 该 配置 一 个 监控 系统 来 提 
醒 硬 盘 或 者 RAID 卷 发 生 降级 或 失效 了 。 











对 阵列 积极 地 进行 定期 一 致 性 检查 ， 可 以 减少 潜在 的 损坏 风险 。 某 
些 控制 器 有 后 台 巡 检 (Background Patrol Read) 功能 ， 当 所 有 驱动 器 都 
在 线 服务 时 ， 可 以 检查 媒介 是 否 有 损坏 并 有 是 修复， 也 可 以 帮助 避免 此 类 
问题 的 发 生 。 在 恢复 时 ， 非 常 大 型 的 阵列 可 能 会 降低 检查 速度 ， 所 以 创 
建 大 型 阵列 时 一 定 要 确保 制定 了 相应 的 计划 。 





也 可 以 添加 一 个 热 备 盘 ， 这 个 盘 一 般 是 未 使 用 状态 ， 并 且 配 置 为 备 
用 状态 ， 有 硬盘 坏 了 之 后 控制 器 会 目 动 把 这 块 盘 恢复 为 使 用 状态 。 如 果 
依赖 于 每 个 服务 器 的 可 用 性 外 ， 这 是 一 个 好 主意 。 对 只 有 少数 硬盘 驱 
动 融 的 服务 器 ， 这 么 做 是 很 昂 贯 的 ， 因 为 一 个 空 朵 磁盘 的 成 本 比例 比较 
高 ， 但 如 果 有 多 个 磁盘 ， 而 不 设 一 个 热 备 盘 ， 就 是 加 蕊 的 做 法 。 请 记 
住 ， 更 多 的 磁盘 驱动 器 会 让 发 生 故 障 的 概率 迅速 增加 。 











除了 监控 硬盘 失效 ， 还 应 该 监控 RAID 控 制 器 的 电池 备份 单元 以 及 
写 缓存 策略 。 如 果 电 池 失 效 ， 大 部 分 控制 器 默认 设置 会 禁用 写 缓存 ， 把 
绥 存 策略 从 WriteBack 改 为 WriteThrough。 这 可 能 导致 服务 器 性 能 下 降 。 
很 多 控制 器 会 通过 一 个 学 习 过 程 周 期 性 地 对 电池 充 放 电 ， 在 这 个 过 程 中 
缓存 是 被 禁用 的 。RAID 控 制 器 管理 工具 应 该 可 以 浏览 和 配置 电池 充 放 
电 计 划 ， 不 会 让 人 措手不及 。 








也 许 希 望 把 缓存 策略 设 为 WriteThrough 来 测试 系统 ， 这 样 就 可 以 知 
道 系统 性 能 的 期 望 值 。 也 许 需要 计划 电池 充 放电 的 周期 ， 安 排 在 晚上 或 
者 周末 ， 重 新 配置 服务 器 修改 innodb flush log at_trx_commit 和 
sync_binlog 变 量 ， 或 者 在 电池 充 放 电 时 简单 地 切换 到 男 一 台 服 务 器 。 





9.6.2 平衡 硬件 RAID 和 软件 RAID 


操作 系统 、 文 件 系 统 和 操作 系统 看 到 的 驱动 器 数量 之 间 的 相互 作用 
可 以 是 复杂 的 。Bug、 限 制 或 只 是 错误 配置 ， 都 可 能 会 把 性 能 降低 到 远 
远 低 于 理论 值 。 


如 果 有 10 块 人 硬盘， 理想 中 应 该 能 够 承受 10 个 并 行 的 请 求 ， 但 有 时 文 
件 系 统 、 操 作 系统 或 RAID 控 制 融 会 把 请 求 序列 化 。 面 对 这 个 问题 一 个 
可 行 的 办 法 是 尝试 不 同 的 RAID 配 置 。 例 如 ， 如 果 有 10 个 磁盘 ， 并 且 必 
须 使 用 镜像 元 余 ， 性 能 也 要 好 ， 可 以 考虑 下 面 儿 种 配置 : 


。 配置 一 个 包含 五 个 镜像 对 (RAID 1) 的 RAID 10 卷 49。 操 作 系 统 只 
会 看 到 一 个 很 大 的 单独 的 硬盘 卷 ，RAID 控 制 器 会 隐藏 底层 的 10 块 
硬盘。 

。 在 RAID 控 制 器 中 配置 五 个 RAID 1 镜像 对 ， 然 后 让 操作 系统 使 用 五 
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在 RAID 控 制 器 中 配置 五 个 RAID 1 镜像 对 ， 然 后 使 用 软件 RAID 0 把 
五 个 卷 做 成 一 个 逻辑 卷 ， 通 过 部 分 硬件 、 部 分 软件 的 实现 方式 ， 有 
效 地 实现 了 RAID 10. CD 


哪个 选项 是 最 好 的 ? 这 依赖 于 系统 中 所 有 的 组 件 如 何 相互 协作 。 不 
同 的 配置 可 能 获得 相同 的 结果 ， 也 可 能 不 同 。 








我 们 已 经 提醒 了 多 种 配置 可 能 导致 串 行 化 。 例 如 ，ext3 文 件 系统 每 
个 inode 有 一 个 单一 的 Mutex， 所 以 当 InnoDB 是 配置 
为 innodb_flush_method=0_DIRECT (常见 的 配置 时， 在 文件 系统 会 有 
inode 级 别 的 锁定 。 这 使 得 它 不 可 能 对 文件 进行 WO 并 发 操作 ， 因 而 系统 
表现 会 远 低 于 其 理论 上 的 能 








我 们 见 过 的 男 一 个 案例 ， 请 求 串 行 地 发 送 到 一 个 10 块 盘 的 RAID10 
卷 中 的 每 个 设备 ， 使 用 ReiserFS 文 件 系统 ，InnoDB 打 开 了 
innodb_ file_per_table 选 项 。 答 试 在 硬件 RAID 1 的 基础 上 用 软件 RAID 
0 做 成 RAID 10 的 方式 ， 获 得 了 五 倍 多 的 吞吐 ， 因 为 存储 系统 开始 表现 出 
五 个 硬盘 同时 工作 的 特性 ， 而 不 再 是 一 个 了 。 造 成 这 种 情况 的 是 一 个 已 
经 被 修复 的 Bug， 但 是 这 是 一 个 很 好 的 例证 ， 说 明 这 类 事情 可 能 发 生 。 





串 行 化 可 能 发 生 在 任何 的 软件 或 重 件 堆栈 层 。 如 果 看 到 这 个 问题 友 
生 了 ， 可 能 需要 更 改 文件 系统 、 升 级 内 核 、 骏 露 更 多 的 设备 给 操作 系 
统 ， 或 使 用 不 同 的 软件 或 硬件 RAID 组 合 方式 。 应 该 检查 你 的 设备 的 并 
发 性 以 确保 它 确实 是 在 做 并 发 TO《〈 本 章 稍 后 有 更 多 关于 这 个 话题 的 内 
容 ) 。 














最 后 ， 当 准备 上 线 一 种 新 服务 器 时 ， 不 要 起 了 做 基准 测试 ! 这 会 帮 





助 你 确认 能 获得 所 期 望 的 性 能 。 例 如 ， 若 一 个 硬盘 驱动 器 每 秒 可 以 做 
200 个 随机 读 ， 一 个 有 8 个 硬盘 驱动 器 的 RAID 10 卷 应 该 接近 每 秒 1 600 个 
随机 读 。 如 果 观 察 到 的 结果 比 这 个 少 得 多 ， 比 如 说 每 秒 500 个 随机 读 ， 
就 应 该 研究 下 哪里 可 能 有 问题 了 。 确 保 基 准 测 试 对 1/O 子 系统 施加 了 跟 
MySQL 一 样 的 方式 的 压力 一 一 例如 ， 使 用 0_DI1RECT 标 记 ， 并 且 如 果 使 
用 没有 打开 innodb_file_per_table 选 项 的 InnoDB， 要 用 一 个 单一 的 文 
件 测试 WO 性 能 。 通 常 可 以 使 用 sysbench 来 验证 新 的 硬件 设置 都 是 正确 

的 。 





9.6.3 ”RAID 配置 和 缓存 


配置 RAID 控 制 器 通常 有 几 种 方法 ， 一 是 可 以 在 机 器 启动 时 进入 自 
带 的 设置 工具 ， 或 从 命令 行 中 运行 。 虽然 大 多 数控 制 器 提供 了 很 多 选 
项 ， 但 其 中 有 两 个 是 我 们 特别 关注 的 ， 一 是 条 带 化 阵列 的 块 大 小 
(Chunk Size) ， 还 有 就 是 控制 器 板 载 缓存 (也 称 为 RAID 绥 存 ， 我 们 使 
用 术语 ) 。 





RAID E RK 


BERTE ERK MARAE TIER R AR I MER ED, 
对 随机 1/O 来 说 更 大 的 块 更 好 ， 因 为 这 意味 看 更 多 的 读 取 可 以 从 一 个 单 
— ASK ait ELE o 


为 什么 会 是 这 样 ? 在 工作 负载 中 找 出 一 个 典型 的 随机 IO 操作 ， 如 
打 条 带 的 其 大 小 足够 大 ， 至 少 大 到 数据 不 用 路 越 块 的 边界 ， 就 只 有 单个 
便 盘 需要 参与 读 取 。 但 是 ， 如 末 块 大 小 比 要 读 取 的 数据 量 小 ， 就 没有 办 


法 避免 多 个 人 硬盘 参与 读 取 。 





这 只 是 理论 上 的 观点 。 在 实践 中 ， 许 多 RAID 控 制 旧 在 大 条 带 下 工 
作 得 不 好 。 例 如 ， 控 制 器 可 能 用 缓存 中 的 缓存 单元 大 小 作为 块 大 小 ， 这 
可 能 有 浪费 。 控 制 器 也 可 能 把 块 大 小 、 缓 存 大 小 、 读 取 单 元 的 大 小 在 
一 个 操作 中 读 取 的 数据 量 ) 匹配 起 来 。 如 果 读 的 单位 太 大 ， RAID 绥 存 
可 能 不 太 有 效 ， 最 终 可 能 会 读 取 比 真正 需要 的 更 多 的 数据 ， 即 使 是 微小 
的 请 求 。 当 然 ， 在 实践 中 很 难 知 道 是 否 有 数据 会 跨越 多 个 驱动 器 。 即 使 
块 大 小 为 16 KB， 与 InnoDB 的 页 大 小 相 匹 配 ， 也 不 能 让 所 有 的 读 取 对 齐 
16 KB 的 边界 。 文 件 系 统 可 能 会 把 文件 分 成 片段 ， 每 个 片段 的 大 小 通常 
与 文件 系统 的 块 大 小 对 齐 ， 大 部 分 文件 系统 的 块 大 小 为 4KB。 一 些 文件 
系统 可 能 更 聪明 ， 但 不 应 该 指望 它 。 











可 以 配置 系统 以 便 从 应 用 到 底层 存储 所 有 的 块 者 对齐 :InnoDB 的 
BR, FRAIR, LVM, or Xmas. RAID. Met. RITA 
基准 测试 表明 ， 当 一 切 都 对 齐 时 ， 随 机 读 和 随机 写 的 性 能 可 能 分 别提 高 
15% 和 23%。 对 齐 一 切 的 精密 技术 太 特 殊 了 ， 无 法 在 这 细 说 ， 但 其 他 很 
多 地 方 有 很 多 不 错 的 信息 ， 包 括 我 们 的 博 
4¢, http://www.mysqlperformanceblog.com.« 





RAID 22 TF 


RAID 组 存 就 是 物理 安装 在 RAID 控 制 器 上 的 〈 相 对 来 说 ) 少量 内 
存 。 它 可 以 用 来 缓冲 硬盘 和 主机 系统 之 间 的 数据 。 下 面 是 RAID 卡 使 用 





缓存 读 取 


控制 器 从 磁盘 读 取 数据 并 发 送 到 主机 系统 后 ， 通 过 缓存 可 以 存 
储 读 取 的 数据 ， 如 宋 将 来 的 请 求 需要 相同 的 数据 ， 就 可 以 直接 使 用 
而 无 须 再 次 去 读 盘 。 





这 实际 上 是 RAID 缓 存 一 个 很 糟糕 的 用 法 。 为 什么 呢 ? 由 于 操 
作 系 统 和 数据 库 服务 器 有 上 自己 更 大 得 多 的 缓存 。 如 果 数 据 在 这 些 上 
层 缓存 中 命中 了 ，RAID 绥 存 中 的 数据 就 不 会 被 使 用 。 相 反 ， 如 末 
上 层 的 缓存 没有 命中 ， 就 有 可 能 在 RAID 绥 存 中 命中 ， 但 这 个 概率 
古人 微乎其微 的 。 因 为 RAID 缓 存 要 小 得 多 ， 几 乎 肯定 会 被 刷新 挥 ， 
BARBRA EA 了。 无 论 哪 种 方式 ， 绥 冲 读 都 是 浪费 RAID 绥 存 
的 事 。 





缓存 预 读数 据 


如 果 RAID 控 制 器 及 现 连续 请 求 的 数据 ， 可 能 会 决定 做 预 读 操 
作 一 一 束 是 预先 取出 估计 很 快 会 用 到 的 数据 。 在 数据 被 请 求 之 前 ， 
必须 有 地 方 放 这 些 数据 。 这 也 会 使 用 RAID 绥 存 来 放 。 预 读 对 性 能 
的 影响 可 能 有 很 大 的 不 同 ， 应 该 检查 确保 预 读 确实 有 帮助 。 如 宋 数 
据 库 服务 器 做 了 自己 的 智能 预 读 〈 例 如 InnoDB 的 预 读 ) ，RAID 控 
制 侨 的 预 读 可 能 就 没有 帮助 ， 甚 全 可 能 会 干扰 所 有 重要 的 缓冲 和 同 
步 写 入 。 














缓冲 写 入 


RAID 控 制 器 可 以 在 高 速 缓存 里 缓冲 写 操作 ， 并 且 一 段 时 间 后 
再 写 到 硬盘。 这 样 做 有 双重 的 好 处 : 首先 ， 可 以 快 得 多 地 返回 给 主 
机 系统 写 “ 成 功 ” 的 信号 ， 远 远 比 写 入 到 物理 磁盘 上 要 快 ， 其 次 ， 可 
以 通过 积累 写 操作 从 而 更 有 效 地 批量 操作 包 。 


内 部 操作 


某 些 RAID 的 操作 是 非常 复杂 的 一 一 尤其 是 RAID 5 的 写 入 操 
作 ， 其 中 要 计算 校 验 位 ， 用 来 在 发 生 故 障 时 重建 数据 。 控 制 器 做 这 
类 内 部 操作 需要 使 用 一 些 内 存 。 


这 也 是 RAID 5 在 一 些 RAID 控 制 器 上 性 能 差 的 原因 : 为 了 好 的 
性 能 需要 读 取 大 量 数据 到 内 存 。 有 些 控制 器 不 能 较 好 地 平衡 缓存 写 
和 RAID 5 校 验 位 操作 所 需要 的 内 存 。 


一 般 情况 下 ，RAID 控 制 器 的 内 存 是 一 种 稀缺 资源 ， 应 该 尽量 用 在 
思 为 上 。 绥 存 读 取 通 常 是 一 种 浪费 ， 但 是 缓冲 写 入 是 加 速 WO 性 能 的 一 
个 重要 途径 。 许 多 控制 器 可 以 选择 如 何 分 配 内 存 。 例 如 ， 可 以 选择 有 多 
少 缓 存 用 于 写 入 和 多 少 用 于 读 取 。 对 于 RAID 0、RAID 1 和 RAID 10, M 
该 把 控制 器 缓存 100% 分 配给 写 入 用 。 对 于 RAID 5， 应 该 保留 一 些 内 存 
给 内 部 操作 。 通 常 这 是 正确 的 建议 ， 但 并 不 总 是 适用 一 一 不 同 的 RAID 
卡 需要 不 同 的 配置 。 

















当 正 在 用 RAID 缓 存 缓冲 写 入 时 ， 许 多 控制 器 可 以 配置 延迟 写 入 多 
入 时 间 《【 例 如 一 秒 钟 、 五 秒 钟 ， 等 等 ) 是 可 以 接受 的 。 较 长 的 延迟 意味 
着 更 多 的 写 入 可 以 组 合 在 一 起 更 有 效 地 刷新 到 磁盘 。 缺 点 是 写 入 会 变 得 
更 加 * 突 发 的 ”。 但 这 不 是 一 件 坏 事 ， 除 非 应 用 一 连 串 的 写 请 求 把 控制 器 
的 缓存 填 满 了 才 被 刷新 到 磁盘 。 如 果 没 有 足够 的 空间 存放 应 用 程序 的 写 
入 请 求 ， 写 操作 就 会 等 待 。 保 持 短 的 延迟 意味 着 可 以 有 更 多 的 写 操作 ， 
并 且 会 更 低 效 绩 ， 但 能 抚 平 性 能 波动 ， 并 且 有 助 于 保持 更 多 的 空闲 组 
存 ， 来 接收 应 用 程序 的 爆发 请 求 。 我 们 在 这 里 简化 了 一 一 事实 上 控制 
器 往往 很 复杂 ， 不 同 的 供应 商 有 自己 的 均衡 算法 ， 所 以 我 们 只 是 试图 覆 
盖 基 本 原则 。) 








写 入 缓冲 对 同步 写 入 非常 有 用 ， 例 如 事务 日 志和 二 进 制 日 志 
(sync_binlog 设 置 为 1) 调用 的 fsync() ， 但 是 除非 控制 器 有 电池 备份 
单元 (BBU) 或 其 他 非 易 失 性 存储 CG， 否则 不 应 该 启用 RAID 缓 存 。 不 
带 BBU 的 情况 下 绥 冲 写 ， 在 断 电 时 ， 有 可 能 损坏 数据 库 ， 甚 至 是 事务 性 
文件 系统 。 然 而 ， 如 果 有 BBU， 局 用 写 入 绥 存 可 以 提升 很 多 日 志 刷 新 的 
工作 的 性 能 ， 例 如 事务 提交 时 刷新 事务 日 志 。 











最 后 要 考虑 的 是 ， 许 多 硬盘 驱动 器 有 上 自己 的 缓存 ， 可 能 有 “ 假 ”的 
fsync (0) 操作， 欺骗 RAID 控 制 器 说 数据 已 被 写 入 物理 介质 各 。 有 时 可 以 
让 硬盘 直接 挂 载 〈 而 不 是 挂 到 RAID 控 制 器 上 ) ， 让 操作 系统 管理 它们 
的 缓存 ， 但 这 并 不 总 是 有 效 。 这 些 缓存 通常 在 做 fsync () 操作 时 被 刷 
新 ， 妨 外 同步 WO 也 会 绕 过 它们 直接 访问 磁盘 ， 但 是 再 次 提醒 ， 硬 盘 驱 
动 帮 可 能 会 驴 你 。 应 该 确保 这 些 缓存 在 fsync O 时 真 的 刷新 了 ， 人 否则 就 
茶 用 它们 ， 因 为 磁盘 缓存 没有 电池 供电 《所 以 断 电 会 丢失 ) 。 操 作 系 统 
或 RAID 固 件 没有 正确 地 管理 硬盘 管理 已 经 造成 了 许多 数据 丢失 的 案 
例 。 

















由 于 这 个 以 及 其 他 原因 ， 当 安 闭 新 硬件 时 ， 做 一 次 真实 的 宕 机 测试 

(比如 拔 挥 电源 ) 是 很 有 必要 的 。 通 钊 这 是 找 出 隐藏 的 错误 配置 或 者 论 

异 的 硬盘 问题 的 唯一 办 法 。 在 http:Vbrad.Jivejournal.comy/2116715.Pptm1 有 
个 方便 的 脚本 可 以 使 用 。 


为 了 测试 是 否 真 的 可 以 依赖 RAID 控 制 器 的 BBU， 必 须 像 真实 情况 
一 样 切 断 电 源 一 段 时 间 ， 因 为 条 些 单 元 断 电 超过 一 段 时 间 后 就 可 能 会 丢 
失 数 据 。 这 里 再 次 重申 ， 任 何 一 个 环 市 出 现 问 题 都 会 使 整个 存储 组 件 失 
效 。 


9.7 SAN 和 NAS 


SAN (Storage Area Network) 和 NAS (Network-Attached Storage) 
是 两 个 外 部 文件 存储 设备 加 载 到 服务 器 的 方法 。 不 同 的 是 访问 存储 的 方 
式 。 访 问 SAN 设 备 时 通过 块 接 口 ， 服 务 器 直接 看 到 一 块 便 盘 并 且 可 以 像 
硬盘 一 样 使 用 ， 但 是 NAS 设 备 通 过 基于 文件 的 协议 来 访问 ， 例 如 NEFS 或 
SMB。SAN 设 备 通常 通过 光纤 通道 协议 (FCP) 或 iSCSI 连接 到 服务 
器 ， 而 NAS 设 备 使 用 标准 的 网 络 连接 。 还 有 一 些 设备 可 以 同时 通过 这 两 
种 方式 访问 ， 比 如 NetApp Filer 存 储 系统 。 





在 接 下 来 的 讨论 中 ， 我 们 将 把 这 两 种 类 型 的 存储 统一 称 为 SAN。 在 
后 面 的 阅读 应 该 记 住 这 一 点 。 主 要 区 别 在 于 作为 文件 还 是 块 设备 访问 存 
储 。 


SAN 人 允许 服务 器 访问 非常 大 量 的 硬盘 驱动 器 一 一 通常 在 50 块 以 上 
一 一 并 且 通 常 配置 大 容量 智能 高 速 缓存 来 缓冲 写 入 。 块 接口 在 服务 器 上 
以 逻辑 单元 号 (LUN) 或 者 虚拟 卷 〈 除 非 使 用 NFS) 出 现 。 许 多 SAN 也 
允许 多 节点 组 成 集群 来 获得 更 好 的 性 能 或 者 增加 存储 容量 。 














目前 新 一 代 SAN 跟 几 年 前 的 不 同 。 许 多 新 的 SAN 混 合 了 闪存 和 机 械 
硬盘 ， 而 不 仅仅 是 机 械 硬盘 了 。 它 们 往往 有 大 到 TB 级 或 以 上 的 闪存 作 
为 缓存 ， 不 像 旧 的 SAN， 只 有 相对 较 小 的 缓存 。 此 外 ， 旧 的 SAN 无 法 通 
过 配置 更 大 的 缓存 层 来 “扩展 缓冲 池 ”， 而 新 的 SAN 有 时 可 以 。 因 此 ， 相 
比 之 下 新 的 SAN 可 以 提供 更 好 的 性 能 。 








9.7.1 ”SAN 基准 测试 





我 们 已 经 测试 了 多 个 SAN/) 商 的 多 种 产品 。 表 9-3 展 示 了 一 些 低 并 
发 场景 下 的 典型 测试 结果 。 


表 9-3: 以 16KB 为 单位 同步 单线 程 操作 单个 4GB 文 件 的 10PS 


设备 RFS 。 顺序 读 MNS ”随机 读 
SAN1 做 了 RAID5 2428 5794 629 258 
SAN1 做 了 RAID 10 1765 3427 1725 213 
SAN2 通过 NFS 1768 3154 2056 166 
10k RPM 硬盘 ，RAID 1 7027 4773 2302 310 
Intel SSD 3045 6266 2427 4397 


具体 的 SAN 广 商 名 字 和 配置 做 了 保密 处 理 ， 但 是 可 以 透露 的 是 这 些 
都 不 是 便宜 的 SAN。 测 试 都 是 用 同步 的 16 “KB 操作 ， 模 拟 ImnoDB 配 置 
在 0_DIRECT 模 式 时 的 操作 方式 。 





从 表 9-3 中 可 以 得 出 什么 结论 ? 我 们 测试 的 系统 不 是 都 可 以 直接 比 
较 的 ， 所 以 盯 着 这 些 好 看 的 数据 点 来 看 不 能 客观 地 做 出 评价 。 然 而 ， 这 
些 结果 很 好 地 说 明了 这 类 设备 的 总 体 性 能 表现 ，SAN 可 以 承受 大 量 的 连 
续 写 入 ， 因 为 可 以 缓冲 并 合并 MO。SAN 提 供 顺序 读 取 没 有 问题 ， 因 为 
可 以 做 预 读 并 从 缓存 中 提出 数据 。 在 随机 写 上 会 慢 一 些 ， 因 为 写 入 操作 
不 能 较 好 地 合并 。 因 为 读 取 通常 在 缓存 中 无 法 命中 ， 必 须 等 待 便 盘 驱 动 
融 啊 应 ， 所 以 SAN 很 不 适合 做 随机 该 取 。 最 重要 的 是 ， 服 务 器 和 SAN 之 
间 有 传输 延迟 。 这 是 为 什么 通过 NEFS 连 接 SAN 时 ， 提 供 的 每 秒 随机 读 还 
不 如 一 块 本 地 磁盘 的 原因 。 








我 们 已 经 用 较 大 尺寸 的 文件 做 了 基准 测试 ， 但 没有 用 其 他 尺寸 的 文 
件 在 上 述 的 系统 中 测试 。 然 而 ， 无 论 结果 如 何 ， 可 以 预见 的 是 :不管 多 
么 强大 的 SAN， 对 于 小 的 随机 操作 ， 都 无 法 获得 恨 好 的 啊 应 时 间 和 吞吐 
量 。 延 时 的 大 部 分 都 是 由 于 服务 器 和 SAN 之 间 的 链 路 导致 的 。 





我 们 的 基准 测试 显示 的 每 秒 操作 吞吐 量 ， 并 没有 说 出 完整 的 故事 。 
至 少 有 三 个 重要 指标 : 每 秒 吞吐 量 字 节 数 、 并 发 性 和 响应 时 间 。 在 一 般 
情况 下 ， 相 对 于 直接 连接 存储 (DAS), SAN 无 论 读 写 都 可 以 提供 更 
好 的 顺序 MO 吞吐 量 。 大 多 数 SAN 可 以 支持 大 量 的 并 发 性 ， 但 基准 测试 
只 有 一 个 线程 ， 这 可 以 说 明 最 坏 的 情况 。 但 是 ， 当 工作 集 不 能 放 到 SAN 
的 缓存 时 ， 随 机 读 在 吞吐 量 和 延迟 方面 将 变 得 很 差 ， 甚 至 延迟 将 高 于 直 
接 访 问 本 地 存储 。 





























9.7.2 ”使 用 基于 NES 或 SMB 的 SAN 





某 些 SAN， 例 如 NetApp Filer 存 储 ， 通 种 通过 NFS 访 问 ， 而 不 是 通过 
光纤 或 者 iSCSI。 这 曾经 是 我 们 希望 避免 的 情况 ， 但 是 NFS 今 天 比 以 前 
好 了 很 多 。 通 过 NFS 可 以 获得 相当 好 的 性 能 ， 尽 管 需要 专门 配置 网 络 。 
SAN) 丙 提 供 的 最 佳 实践 指导 可 以 帮助 了 解 怎 样 配 置 。 











主要 考虑 的 事情 是 NFS 协 议 自身 怎样 影响 性 能 。 许 多 文件 元 信息 操 
作 ， 通 常 在 本 地 文件 系统 或 者 SAN 设 备 〈 非 NAS) 的 内 存 中 执行 ， 但 是 
在 NAS 上 可 能 需要 一 次 网 络 来 回 发 送 。 例 如 ， 我 们 提醒 过 把 二 进 制 日 志 
存在 NFS 上 会 损害 服务 器 性 能 ， 即 使 关闭 sync_binlog 也 无 济 于 事 。 


也 可 以 通过 SMB 协 议 访问 SAN 或 者 NAS， 需 要 考虑 的 问题 类 似 : 可 
能 有 更 多 的 网 络 通信 ， 会 对 延迟 产生 影响 。 对 传统 桌面 用 户 这 没什么 影 
响 ， 他 们 通常 只 是 在 挂 载 的 驱动 器 上 存储 电子 表格 或 者 其 他 文档 ， 或 者 
只 是 为 了 备份 复制 一 些 东 西 到 另 一 台 服 务 器 。 但 是 用 作 MySQL 读 写 它 
的 文件 ， 束 会 有 严重 的 性 能 问题 。 





9.7.3 “MYSQL 在 SAN 上 的 性 能 


IO 基准 测试 只 是 一 种 观察 的 方式 ，MySQL 在 SAN 上 具体 性 能 表现 
如 何 ? 在 许多 情况 下 ， MySQL 运行 得 还 可 以 ， 可 以 避免 很 多 SAN 可 能 
导致 性 能 下 降 的 情况 。 仔 细 地 做 好 逻辑 和 物理 设计 ， 包 括 索 引 和 适当 的 
服务 器 硬件 (尽量 配置 更 多 的 内 存 ! ) 可 避免 很 多 的 随机 IO 操作 ， 或 
者 可 以 转化 为 顺序 的 HO。 然 而 ， 应 该 知道 的 是 ， 通 过 一 段 时 间 的 运 
行 ， 这 种 系统 可 以 达到 一 个 微妙 的 平衡 一 一 引入 一 个 新 的 查询 ，Schema 
的 变化 或 频繁 的 操作 ， 都 很 容易 扰乱 这 种 平衡 。 





例如 ， 一 个 SAN 用 户 ， 我 们 知道 他 对 每 天 的 性 能 表现 非常 满意 ， 直 
到 有 一 天 他 想 清 理 一 张 变 得 非常 大 的 旧 表 中 的 大 量 数据 行 。 这 会 导致 一 
个 长 时 间 运 行 的 DELETE 语 句 ， 每 秒 只 能 删 几 百 行 ， 因 为 删除 每 行 所 需 
的 随机 WO，SAN 无 法 有 效 快速 地 执行 。 有 没有 办 法 来 加 快 操作 ， 它 只 
是 要 花费 很 长 的 时 间 才 能 完成 。 另 一 个 让 他 大 吃 一 惊 的 事 是 ， 当 对 一 个 
大 表 执 行 ALTER 类 似 的 操作 时 明显 速度 减 慢 。 











这 些 都 是 些 典 型 的 例子 ， 哪 些 工 作 放 在 SAN 上 不 合适 : 执行 大 量 的 
随机 IO 的 单线 程 任务 。 在 当前 版 本 的 MySQL 中 ， 复 制 是 另 一 个 单线 程 
任务 。 因 此 ， 备 库 的 数据 存储 在 SAN 上 ， 可 能 更 容易 落后 于 主 库 。 批 处 
理 作 业 也 可 能 运行 得 更 慢 。 在 非 高 峰 时 段 或 周末 执行 一 个 一 次 性 的 延迟 
敏感 的 操作 是 可 以 的 ， 但 是 服务 器 的 很 多 部 分 依然 需要 很 好 的 性 能 ， 例 
如 拷贝 、 二 进 制 日 志 ， 以 及 InnoDB 的 事务 日 志 上 总 是 需要 很 好 的 小 随 
机 IO 性 能 。 








9.7.4 ”应 该 用 SAN 吗 





ME, RE MR ZEA) [ole RP, BC eC Y 
题 。 有 很 多 因 系 要 考虑 ， 以 下 我 们 列 出 其 中 的 儿 个 。 








备份 


集中 存储 使 备份 更 易于 管理 。 当 所 有 数据 都 存储 在 一 个 地 方 
时 ， 可 以 只 备份 SAN， 只 要 确保 已 经 确认 过 了 所 有 的 数据 都 在 。 这 
简化 了 问题 ， 例 如 “你 确定 我 们 要 备份 所 有 的 数据 吗 ? Pb, SR HE 
设备 有 如 连续 数据 保护 (CDP) 以 及 强大 的 快照 功能 等 功能 ， 使 得 
备份 更 容易 、 更 灵活 。 








简化 容量 规划 





不 确定 需要 多 大 容量 吗 ? SAN 可 以 提供 这 种 能 购买 大 容 
量 存储 、 分 孚 给 很 多 应 用 ， 并 且 可 以 调整 大 小 并 按 需 求 重新 发 布 。 














存储 整合 还 是 服务 器 整合 


某 些 CIO 盘 点 数据 中 心 运行 了 哪些 东西 时 ， 可 能 会 得 出 结论 说 
大 量 的 IO 容量 被 浪费 了 ， 这 是 把 存储 空间 和 IO 容量 混为一谈 了 。 
毫 无 疑问 的 是 ， 如 果 集中 存储 可 以 确保 更 好 地 利用 存储 资源 ， 但 这 
样 做 将 会 如 何 影 响 使 用 存储 的 系统 ? 典型 的 数据 库 操作 在 性 能 上 可 
以 达到 数量 级 的 差异 ， 因 此 可 能 会 发 现 ， 如 果 集 中 存储 可 能 需要 增 
加 10 倍 的 服务 器 (或 更 多 ) 才能 处 理 原来 的 工作 。 尺 管 数 据 中 心 的 
IO 容量 在 SAN 上 可 以 更 好 地 被 利用 ， 但 是 会 导致 其 他 系统 无 法 充 
分 被 利用 《例如 数据 库 服务 器 花费 大 量 时 间 等 待 O、 应 用 程序 服 
Fate RABIN [AS eae, AUR TE) 。 在 现实 中 我 们 已 经 看 
到 过 很 多 通过 分 散 存 储 来 整合 服务 器 并 削减 成 本 的 例子 。 











高 可 用 


有 时 人 们 认为 SAN 是 高 可 用 解决 方案 。 之 所 以 会 这 样 认为 ， 可 
能 是 因为 对 高 可 用 的 真实 含义 的 理解 出 现 了 分 歧 ， 我 们 将 在 第 12 章 
给 出 建议 。 


根据 我 们 的 经 验 ，SAN 经 常 与 故障 和 停机 联系 在 一 起 ， 这 不 是 
因为 它们 不 可 靠 一 一 它们 没什么 问题 ， 也 确实 很 少 出 故障 一 一 只 是 
因为 人 们 都 不 愿意 相信 这 样 的 工程 奇迹 其 实 也 会 坏 的 ， 因 而 缺乏 这 
方面 的 准备 。 此 外 ，SAN 有 时 是 一 个 复杂 的 、 神 秘 的 黑 盒 子 ， 当 出 
问题 的 时 候 没 有 人 知道 该 如 何 解 决 ， 并 且 价 格 昂 贯 ， 难 以 快速 构建 
管理 SAN 所 需 的 专业 知识 。 大 多 数 的 SAN 都 对 外 缺乏 可 见 性 〈 就 是 
个 黑 盒子 ) ， 这 也 是 为 什么 不 应 该 只 是 简单 地 信任 SAN 管 理 员 、 支 
持 人 员 或 管理 控制 台 的 原因 。 我 们 看 到 过 所 有 这 三 种 人 都 错 了 的 情 
W: 当 SAN 出 了 问题 ， 如 出 现 硬盘 驱动 器 故障 导致 性 能 下 降 529@ 的 
案例 。 这 是 另 一 个 推荐 使 用 sysbench 的 理由 : sysbench 可 以 快速 地 
完成 一 个 IO 基准 测试 以 证 明 是 否 是 SAN 的 问题 。 











服务 器 之 间 的 交互 





共享 存储 可 能 会 导致 看 似 独立 的 系统 实际 上 是 相互 影响 的 ， 有 
时 甚至 会 很 严重 。 例 如 ， 我 们 知道 一 个 SAN 用 户 有 个 很 粗放 的 认 
识 ， 当 开发 服务 器 上 有 IO 密集 型 操作 时 ， 会 引起 数据 库 服 务 器 几 
乎 陷于 停顿 。 批 处 理 作 业 、ALTER TABLE、 备 份 一 一 任何 一 个 系 
统 上 产生 大 量 的 IO 操作 都 可 能 会 导致 其 他 系统 的 MO 资源 不 足 。 有 
时 的 影响 远 远 比 直 觉 想象 的 糟糕 ， 一 个 看 似 不 起 眼 的 操作 可 能 会 导 
致 严重 的 性 能 下 降 。 





成 本 


成 本 是 什么 ? 管理 和 行政 费用 ? 每 秒 W/O 操 作 数 (IOPS) 中 每 
个 IO 操作 的 成 本 ? 标价 ? 


有 充分 的 理由 使 用 SAN， 但 无 论 销售 人 员 说 什么 ， 至 少 从 
MySQL 需 要 的 性 能 类 型 来 看 ，SAN 不 是 最 佳 的 选择 。 选择 一 个 
SAN 供 应 商 并 跟 它 们 的 销售 谈 ， 你 可 能 昕 到 他 们 一 般 也 是 同意 的 ， 
然后 告诉 你 他 们 的 产品 是 一 个 例外 。) 如果 考 虑 性 价 比 ， 结 论 会 更 
加 清楚 ， 因 为 内 存 存储 或 配置 有 电池 文 持 写 缓 存 的 RAID 控 制 絮 加 
上 老式 硬盘 驱动 硕 ， 可 以 在 低 得 多 的 价格 下 提供 更 好 的 性 能 。 





天 于 这 个 话题 ， 不 要 二 了 让 销售 给 你 两 合 SAN 的 价格 。 至 少 需 
要 两 台 ， 和 否则 这 人 台 昂 贵 的 SAN 可 能 会 成 为 故障 中 的 单 点 。 





有 许多 “血泪 史 ” 可 以 引 以 为 戒 ， 这 不 是 试图 吓 距 你 远离 SAN。 我 们 
知道 的 SAN 用 户 都 非常 地 爱 这 些 存储 ! 如 果 正 在 考虑 是 否 使 用 SAN， 最 
重要 的 事情 是 想 清楚 要 解决 什么 问题 。SAN 可 以 做 很 多 事情 ， 但 解决 性 
能 问题 只 是 其 中 很 小 的 一 部 分 。 相 比 之 下 ， 当 不 要 求 很 多 高 性 能 的 随机 
IO， 但 是 对 某 些 功能 感 兴趣 的 话 ， 如 快照 、 存 储 整合 、 重 复数 据 删 除 
和 虚拟 化 ，SAN 可 能 非常 适合 。 











因此 ， 大 多 数 Web 应 用 不 应 该 让 数据 库 使 用 SAN， 但 SAN 在 所 谓 的 
企业 级 应 用 很 受 欢 迎 。 企 业 通 常 不 太 受 预算 限制 ， 所 以 能 够 负担 得 起 作 
为 “奢侈 品 * 的 SAN。 (有 时 SAN 甚 至 作为 一 种 身份 的 象征 ! ) 








9.8 EHZ RE 


我 们 迟早 都 会 碰 到 文件 应 该 放 哪 的 问题 ， 因 为 MYSQL 创建 了 多 种 
类 型 的 文件 ; 


。 数据 和 索引 文件 
。 事务 日 志文 件 
。 二 进 制 日 志文 件 








。 常规 日 志 《 例 如 ， 错 误 日 志 、 碍 询 日 志和 慢 碍 询 日 志 ) 
。 临时 文件 和 临时 表 


MySQL 没 有 提供 复杂 的 空间 管理 功能 。 默 认 情 况 下 ， 只 是 简单 地 
把 每 个 Schema 的 文件 放 入 一 个 单独 的 目录 。 有 少量 选项 来 控制 数据 文件 
放 哪 。 例 如 ， 可 以 指定 MyISAM 表 的 索引 位 置 ， 也 可 以 使 用 MySQL 5.1 
的 分 区 表 。 





如 果 正 在 使 用 ImnoDB 上 默认 配置 ， 所 有 的 数据 和 文件 部 放 在 一 组 数 
据 文 件 〈 共 享 表 空 间 ) 中 ， 只 有 表 定义 文件 放 在 数据 目录 。 因 此 ， 大 部 
分 用 户 把 所 有 的 数据 和 文件 放 在 了 单独 的 卷 。 


然而 ， 有 时 使 用 多 个 卷 可 以 帮助 解决 JO 负 载 高 的 问题 。 例 如 ， 一 
个 批 处 理 作业 需 要 写 入 很 多 数据 到 一 张 巨 大 的 表 ， 将 这 张 表 放 在 单独 的 
卷 上 ， 可 以 避免 其 他 奋 询 的 IO 受到 影响 。 理 想 的 情况 下 ， 应 该 分 析 不 
同 数据 的 VO 访问 类 型 ， 才 能 把 数据 放 在 适当 的 位 置 ， 但 这 很 难 做 到 ， 
除非 已 经 把 数据 放 在 不 同 的 着 上。 








你 可 能 已 经 昕 过 标准 建议 ， 束 是 把 事务 日 志和 数据 文件 放 在 不 同 的 


卷 上 面 ， 这 样 日 志 的 顺序 MO 和 数据 的 随机 MO 不 会 互相 影响 。 但 是 除非 
AREE COREL) 或 者 内 存 存储 ， 耕 则 在 这 样 做 之 前 应 该 考虑 清 


楚 代 价 。 





二 进 制 日 志和 数据 文件 分 离 的 真正 的 优势 ， 是 减少 事故 中 同时 丢失 
数据 和 日 志文 件 的 可 能 性 。 如 果 RAID 控 制 器 上 没有 电池 支持 的 写 绥 
存 ， 把 它们 分 开 是 很 好 的 做 法 。 





但 是 ， 如 果 有 备用 电池 单元 ， 分 离 卷 就 可 能 不 是 想象 中 那么 必要 
了 。 性 能 差异 很 小 是 主要 原因 。 这 是 因为 即使 有 大 量 的 事务 日 志 写 入 ， 
其 中 大 部 分 写 入 都 很 小 。 因 此 ，RAID 绥 存 通常 会 合并 1/O 请 求 ， 通 常 只 
会 得 到 每 秒 的 物理 顺序 写 请 求 。 这 通常 不 会 干预 数据 文件 的 随机 LO， 
除非 RAID 控 制 器 真 的 整体 上 饱和 了 。 一 般 的 日 志 ， 其 中 有 连续 的 异步 
写 入 、 负 和 蓓 也 低 ， 可 以 较 好 地 与 数据 分 享 一 个 卷 。 











将 日 志 放 在 独立 的 卷 是 否 可 以 提升 性 能 ? 通 向 情况 下 是 的 ， 但 是 从 
成 本 的 角度 来 看 这 个 问题 ， 是 人 否 真 的 值得 这 么 做 ， 答 案 往往 是 否定 的 ， 
尽管 很 多 人 不 这 么 认为 。 








原因 是 : 为 事务 日 志 提 供 专 门 的 人 硬盘 是 很 昂贵 的 。 假 设 有 六 个 人 硬盘 
驱动 器 ， 最 常规 的 做 法 是 把 所 有 六 块 盘 放 到 一 个 RAID 卷 ， 或 者 分 成 两 
部 分 ， 四 个 放 数 据 ， 两 个 放 事 务 日 志 。 不 过 如 果 这 样 做 ， 就 减少 了 三 分 
之 一 的 人 硬盘 放 数 据 文 件 ， 这 会 寻 致 性 能 显著 地 下 降 。 此 外 ， 专 门 提供 两 
个 驱动 器 ， 对 负载 的 影 啊 也 微不足道 《假设 RAID 控 制 器 有 电池 文 持 的 
BAF) 。 


另 一 方面 ， 如 果 有 很 多 硬盘 ， 投 入 一 些 给 事务 日 志 可 能 会 从 中 受 
益 。 例 如 ， 一 共有 30 块 硬盘 ， 可 以 分 两 块 人 硬盘 〈 配 置 为 一 个 RAID 1 的 


48) 给 日 志 ， 能 让 日 志 写 尽 可 能 快 。 对 于 额外 的 性 能 ， 也 可 以 在 RAID 
控制 器 中 分 配 一 些 写 缓存 空间 给 这 个 RAID 卷 。 





成 本 效益 不 是 唯一 考虑 的 因素 。 可 能 想 保 持 InnoDB 的 数据 和 事务 
日 志 在 同 一 个 卷 的 另 一 个 原因 是 ， 这 种 策略 可 以 使 用 LVM 快 照 做 无 锁 
的 备份 。 某 些 文件 系统 允许 一 致 的 多 卷 快照 ， 并 且 对 这 些 文件 系统 ， 这 
是 一 个 很 轻 量 的 操作 ， 但 对 于 ext3 有 很 多 东西 需要 注意 。〔 也 可 以 使 用 
Percona “XtraBackup 来 做 无 锁 备 份 ， 关 于 此 主题 更 多 的 信息 ， 请 参阅 第 
15%) 

















如 朵 已 经 局 用 sync_binlog， 二 进 制 日 志 在 性 能 方面 与 事务 日 志 相 
似 了 。 然 而 ， 二 进 制 日 志 存 储 跟 数 据 放 在 不 同 的 卷 ， 实 际 上 是 一 个 好 主 
意 一 一 把 它们 分 开 存放 更 安全 ， 因 此 即使 数据 丢失 ， 二 进 制 日 志 也 可 以 
保存 下 来 。 这 样 ， 可 以 使 用 二 进 制 日 志 做 基于 时 间 点 的 恢复 。 这 方面 的 
考虑 并 不 适用 于 InnoDB 的 事务 日 志 ， 因 为 没有 数据 文件 ， 它 们 就 没 用 
了 ， 你 不 能 将 事务 日 志 应 用 到 昨 晚 的 备份 。 (事务 日 志和 二 进 制 日 志 之 
间 的 区 别 在 其 他 数据 库 的 DBA 看 来 ， 很 难 搞 明白 ， 在 其 他 数据 库 这 束 是 
同一 个 东西 。) 








男 外 一 个 常见 的 场景 是 分 离 出 临时 目录 的 文件 ，MySQL 做 
filesorts 《文件 排序 ) 和 使 用 磁盘 临时 表 时 会 写 到 临时 目录 。 如 果 这 些 
文件 不 会 太 大 的 话 ， 最 好 把 它们 放 在 临时 内 存 文件 系统 ， 如 tmpfs。 这 
是 速度 最 快 的 选择 。 如 果 在 你 的 系统 上 这 不 可 行 ， 束 把 它们 放 在 操作 系 
统 盘 上 。 














典型 的 磁盘 布局 是 有 操作 系统 盘 、 交 换 分 区 和 二 进 制 日 志 的 盘 ， 它 
们 放 在 RAID 1 卷 上 。 还 要 有 一 个 单独 的 RAID 5 或 RAID 10 卷 ， 放 其 他 的 
=y Me 


99 ”网 络 配置 


就 像 延 迟 和 和 厨 吐 量 是 便 盘 驱动 喜 的 限制 因素 一 样 ， 延 迟 和 带宽 《〈 实 
际 上 和 吞吐 量 是 同一 回 事 ) 也 是 网 络 连接 的 限制 因 系 。 对 于 大 多 数 应 用 
程序 来 说 ， 最 大 的 问题 是 延 时 。 和 典型 的 应 用 程序 都 需要 传输 很 多 很 小 的 
网 络 包 ， 并 且 每 次 传输 的 轻微 延迟 最 终 会 被 累加 起 来 。 


























运行 不 正常 的 网 络 通常 也 是 主要 的 性 能 瓶颈 之 一 。 丢 包 是 一 个 普遍 
存在 的 问题 。 即 使 1% 的 丢 包 率 也 足以 造成 显著 的 性 能 下 降 ， 因 为 在 协 
议 栈 的 各 个 层次 都 会 利用 各 种 策略 尝试 修复 问题 ， 例 如 等 待 一 段 时 间 再 
重新 发 送 数 据 包 ， 这 就 增加 了 额外 的 时 间 。 男 一 个 常见 的 问题 是 域名 解 
HRA DNS) 损坏 或 者 变 慢 了 。 


DNS 足以 称 为 “ 阿 基 里 斯 之 中 >， 因此 在 生产 服务 器 上 局 

用 skip_name_resolve 是 个 好 主意 。 损 坏 或 缓慢 的 DNS 解析 对 许多 应 用 
程序 都 是 个 问题 ， 对 MySQL 尤 为 严重 。 当 MySQL 收 到 一 个 连接 请 求 
时 ， 它 同时 需要 做 正 同 和 反 同 DNS 碍 找 。 有 很 多 原因 可 能 导致 这 个 过 程 
出 问题 。 当 问题 出 现时 ， 会 导致 连接 被 拒绝 ， 或 者 使 得 连接 到 服务 器 的 
过 程 变 慢 ， 这 通常 都 会 造成 严重 的 影响 ， 甚 至 相当 于 遭遇 了 拒绝 服务 攻 
i (DDOS) 。 如 果 启 用 skip_name_resolve 选 项 ，MySQL 将 不 会 做 任 
何 DNS 碍 找 的 工作 。 然 而 ， 这 也 意味 着 ， 用 户 账 户 必须 在 host 列 使 用 县 
有 唯一 性 的 耳 地 址 , “localhost” 或 者 IP 地 址 通配符 。 那 些 在 host 列 使 用 主 
机 名 的 用 户 账户 都 将 不 能 登录 。 




















典型 的 Web 应 用 中 男 一 个 常见 的 问题 来 源 是 TCP 积 压 ， 可 以 通过 
MySQL 的 back_log 选 项 来 配置 。 这 个 选项 控制 MySQL 的 传 入 TCP 连 接 队 





列 的 大 小 。 在 每 秒 有 很 多 连接 创建 和 销毁 的 环境 中 ， 默 认 值 50 是 不 够 
的 。 设 置 不 够 的 症状 是 ， 客 户 端 会 看 到 零星 的 “连接 被 拒绝 ”的 错误 ， 配 
以 三 秒 超 时 规则 。 在 繁忙 的 系统 中 这 个 选项 通常 应 加 大 。 把 这 个 选项 增 
加 到 数 百 甚至 数 千 ， 似 乎 没有 任何 副作用 ， 事 实 上 如 果 你 看 得 远 一 些 ， 
可 能 还 需要 配置 操作 系统 的 TCP 网 络 设置 。 在 GNU/Linux 系 统 ， 需 要 增 
加 somaxconn 限 制 ， 默 认 只 有 128， 并 且 需 要 检查 sysctl 的 

tcp_max_syn_back_log 设 置 〈 在 本 节 稍 后 有 一 个 例子 ) 。 











应 该 设计 性 能 恨 好 的 网 络 ， 而 不 是 仅仅 接受 默认 配置 的 性 能 。 首 
先 ， 分 析 节 点 之 间 有 多 少 跳跃 点 ， 以 及 物理 网 络 布局 之 间 的 映射 关系 。 
例如 ， 假 设 有 10 个 网 页 服务 器 ， 通 过 王 兆 以 太 网 (1 GigE) 连接 到 “网 
页 ”交换 机 ， 这 个 交换 机 也 通过 王 兆 网 络 连 接 到 “数据 库 ? 交 换 机 。 如 果 
不 花 时 间 去 追踪 连接 ， 可 能 不 会 意识 到 从 所 有 数据 库 服务 器 到 所 有 网 页 
服务 器 的 总 带宽 是 有 限 的 ! 并 且 每 次 跨越 交换 机 都 会 增加 延 时 。 











监控 网 络 性 能 和 所 有 网 络 端口 的 错误 是 正确 的 做 法 ， 要 监控 服务 
器 、 路 由 器 和 交换 机 的 每 个 端口 。 多 路 由 流量 绘图 器 《Multi Router 
Traffic Grapher) ， 或 者 说 MRTG Chttp://oss.oetiker.ch/mrtg/) ， 对 设备 
监控 而 言 是 个 靠得住 的 开源 解决 方案 。 其 他 常见 的 网 络 性 能 监控 工具 
(与 设备 监控 不 同 ) 还 有 Smokeping (http://oss.oetiker.ch/smokeping/) 
和 Cacti Chttp://www.cacti.net) 。 








网 络 物理 隔离 也 是 很 重要 的 因素 。 城 际 网 络 相 比 数据 中 心 的 局 域 网 
的 延迟 要 大 得 多 ， 即 使 从 技术 上 来 说 带宽 是 一 样 的 。 如 果 节 点 真 的 相距 
甚 远 ， 光 速 也 会 造成 影响 。 例 如 ， 在 美国 的 西部 和 东部 海岸 都 有 数据 中 
心 ， 相 隔 约 3000 公 里 。 光 的 速度 是 186000 米 每 秒 ， 因 此 一 次 通信 不 可 能 
低 于 16 毫 秒 ， 往 返 至 少 需要 32 毫 秒 。 物 理 距 离 不 仅 是 性 能 上 的 考虑 ， 也 
包括 设备 之 间 通 信 的 考虑 。 中 继 器 、 路 由 器 和 交换 机 ， 所 有 的 性 能 都 会 








有 所 降级 。 再 次 ， 越 广泛 地 分 隔 开 的 网 络 节 点 ， 连 接 的 不 可 预知 和 不 可 
靠 因 素 越 大 。 





尽 可 能 避免 实时 的 跨 数据 中 心 的 操作 是 明智 的 E2。 如 果 不 可 能 做 
到 这 一 点 ， 也 应 该 确保 应 用 程序 能 正常 处 理 网 络 故障 。 例 如 ， 我 们 不 硕 
望 看 到 由 于 Web 服 务 器 通过 丢 包 严重 的 网 络 连 接 远 程 的 数据 中 心 时 ， 由 
于 Apache 进 程 挂 起 而 新 建 了 很 多 进程 的 情况 发 生 。 





在 本 地 ， 请 至 少 用 干 兆 网 络 。 骨 干 交 换 机 之 间 可 能 需要 使 用 万 光 以 
太 网 。 如 果 需 要 更 大 的 带宽 ， 可 以 使 用 网 络 链 路 聚合 : 连接 多 个 网 卡 
(NIC) ， 以 获得 更 多 的 带宽 。 链 路 聚合 本 质 上 是 并 行 网 络 ， 作 为 高 可 
用 策略 的 一 部 分 也 很 有 帮助 。 


如 果 雷 要 非常 高 的 否 吐 量 ， 也 许可 以 通过 改变 操作 系统 的 网 络 配 置 
来 提高 性 能 。 如 有 果 连 接 不 多 ， 但 是 有 很 多 的 查询 和 很 大 的 结果 集 ， 则 可 
以 增加 TCP 绥 冲 区 的 大 小 。 具 体 的 实现 依赖 于 操作 系统 ， 对 于 大 多 数 的 
GNU/Linux 系 统 ， 可 以 改变 /etc/sysctl.conf 中 的 值 并 执行 sysctl-p， 或 者 使 
用 /proc 文 件 系 统 写 入 一 个 新 的 值 到 /proc/sys/net/ 里 面 的 文件 。 搜 索 “TCP 
tuning guide”， 可 以 找到 很 多 好 的 在 线 教程 。 











然而 ， 调 整 设置 以 有 效 地 处 理 大量 连 接 和 小 查询 的 情况 通常 更 重 
要 。 比 较 销 见 的 调整 之 一 ， 就 是 要 改变 本 地 端口 的 范围 。 系 统 的 默认 值 
如 下 : 


[root@server ~]# cat /proc/sys/net/ipv4/ip_local_port_range 


32768 61000 


有 时 你 也 许 需 要 改变 这 些 值 ， 调 整 得 更 大 一 些 。 例 如 : 


[root@server ~]# echo 1024 65535 > /proc/sys/net/ipv4/ip_loca 


如 果 要 允许 更 多 的 连接 进入 队列 ， 可 以 做 如 下 操作 : 


[root@server ~]# echo 4096 > /proc/sys/net/ipv4/tcp_max_syn_b 


MPA EASE EN a PRA ae, OEE RMI RA, (AEH 
fa Ze FTN SPE ee, o ART CP PE AAS HY EN NY 
间 。 在 大 多 数 系统 上 默认 是 一 分 钟 ， 这 个 时 间 太 长 了 : 


[root@server ~]# echo <value> > /proc/sys/net/ipv4/tcp_fin_ti 


这 些 设置 大 部 分 时 间 可 以 保留 默认 值 。 通 常 只 有 当 发 生 了 特殊 情 
况 ， 例 如 网 络 性 能 极 差 或 非常 大 量 的 连接 ， 才 需要 进行 修改 。 在 互联 网 
上 搜索 “TCP variables”， 可 以 发 现 很 多 不 错 的 阅读 资料 ， 除 了 上 面 提 到 
的 ， 还 能 看 到 很 多 其 他 的 变量 。 








9.10 ”选择 操作 系统 


GNU/Linux 如 今 是 高 性 能 MySQL 最 常用 的 操作 系统 ， 但 是 MySQL 
本 身 可 以 运行 在 很 多 操作 系统 上 。 








Solaris 是 SPARC 硬 件 上 的 领跑 者 ， 在 x86 人 硬件 上 也 可 以 运行 。 
Solaris 常 用 在 要 求 高 可 徘 的 应 用 上 面 。Solaris 在 某 些 方面 的 易 用 性 可 能 
没有 GNU/Linux 的 名 气 大 ， 但 确实 是 一 个 坚固 的 操作 系统 ， 包 含 许多 先 
进 的 功能 。 尤 其 是 Solaris 10 增 加 了 ZFS 文 件 系 统 ， 包 含 了 很 多 先进 的 故 
障 排除 工具 〈 如 DTrace) 、 民 好 的 多 线程 性 能 ， 以 及 称 为 Solaris Zones 
的 虚拟 化 技术 ， 有 助 于 资源 管理 。 





FreeBSD 是 男 一 种 选择 。 它 历来 与 MySQL 配 合 有 一 些 问题 ， 大 多 时 
候 都 涉及 到 线程 支持 ， 但 新 的 版 本 要 好 得 多 。 如 今 ， 看 到 MySQL 在 
FreeBSD 上 大 规模 部 署 的 场景 并 不 是 什么 稀罕 事 。ZFS 也 可 以 在 FreeBSD 
上 使 用 。 


通常 用 于 开发 和 桌面 应 用 程序 的 MySQL 选 择 的 是 windows。 也 有 企 
业 级 的 MySQL 部 晋 在 Windows 上 ， 但 一 般 的 企业 级 MySQL 更 多 的 还 是 
部 署 在 类 UNIX 操 作 系 统 上 。 我 们 不 希望 引起 任何 有 关 操 作 系 统 的 争 
论 ， 需 要 指出 的 是 在 异 构 操作 系统 环境 中 使 用 MySQL 是 不 存在 问题 
的 。 在 类 UNIX 的 操作 系统 上 运行 的 MySQL 服 务 器 ， 同 时 在 Windows 上 
运行 Web 服 务 器 ， 然 后 通过 高 品质 的 .NET 连 接 器 〈 这 是 MySQL 免 费 提 
供 的 ) 进行 连接 ， 这 是 一 个 非常 合理 的 架构 。 从 UNIX 连 接 到 Windows 
上 的 MySQL 服 务 器 和 连接 到 另 一 台 UNIX 上 的 MySQL 服 务 器 一 样 简单 。 


当选 择 操作 系统 时 ， 如 果 使 用 的 是 64 位 架构 的 人 硬件 〈 见 前 面 介 绍 
的 “CPU 架构 ”) ， 请 确保 安装 的 是 64 位 版 本 的 操作 系统 。 


谈 到 GNU/Linux 发 行 版 时 ， 个 人 的 喜好 往往 是 决定 性 的 因素 。 我 们 
认为 最 好 的 集 略 是 使 用 专 为 服务 器 应 用 程序 设计 的 发 行 版 ， 而 不 是 加 面 
发 行 版 。 要 考虑 发 行 版 的 生命 周期 、 发 布 和 更 新 政策 ， 并 检查 供应 商 的 
支持 是 否 有 效 。 红 帽子 企业 版 Linux 是 一 个 高 品质 、 稳 定 的 发 行 版 
CentOS 是 一 个 受 欢 迎 的 二 进 制 兼容 答 代 品 《〈 免 费 ) ， 但 已 经 因为 延 后 时 
间 较 长 获得 了 一 些 批评 ， 还 有 Oracle 发 行 的 Oracle Enterprise Linux; 74 
外 ，Ubuntu 和 Debian 也 是 流行 的 发 行 版 。 


9.11 选择 文件 系统 


文件 系统 的 选择 非常 依赖 于 操作 系统 。 在 许多 系统 中 ， 如 Windows 
就 只 有 一 到 两 个 选择 ， 而 且 只 有 一 个 (NTFS) 真 的 是 能 用 的 。 比 较 而 
言 ，GNU/Linux 则 支持 多 种 文件 系统 。 


许多 人 想 知 道 哪 个 文件 系统 在 GNU/Linux 上 能 提供 最 好 的 MySQL 性 
能 ， 或 者 更 具体 一 些 ， 哪 个 对 InnoDB 和 MyISAM 而 言 是 最 好 的 选择 。 实 
际 的 基准 测试 表明 ， 大 多 数 文件 系统 在 很 多 方面 都 非常 接近 ， 但 测试 文 
件 系统 的 性 能 确实 是 一 件 烦 心事 。 文 件 系 统 的 性 能 是 与 工作 负载 相关 
的 ， 没 有 哪个 文件 系统 是 “ 银 弹 ”。 大 部 分 情况 下 ， 给 定 的 文件 系统 不 会 
明显 地 表现 得 与 其 他 文件 系统 不 一 样 。 除 非 遇 到 了 文件 系统 的 限制 ， 例 
WM, WEASHIFR, BATES FFLIP BARL :等 等 。 














TA DSHS) BE Be SEE) [a ped ae Be VR I Va], DA Re ee A a BE AY OR 
制 ， 如 目录 下 有 许多 文件 会 导致 运行 缓慢 〈 这 是 ext2 和 旧版 本 ext3 下 一 
个 具名 昭 善 的 问题 ， 但 当前 版 本 的 ext3 和 ext4 中 用 dir_index 选 项 解雇 了 
问题 )》。 文 件 系统 的 选择 对 确保 数据 安全 是 非常 重要 的 ， 所 以 我 们 强烈 
建议 不 要 在 生产 系统 做 实验 。 














如 果 可 能 ， 最 好 使 用 日 志文 件 系统 ， 例 如 ext3、ext4、XFS、ZFS 或 
者 JFS。 如 果 不 这 么 做 ， 般 涡 后 文件 系统 的 检查 可 能 耗费 相当 长 的 时 
间 。 如 果 系 统 不 是 很 重要 ， 非 日 志文 件 系统 性 能 可 能 比 文 持 事务 的 好 。 
例如 ，ext2 可 能 比 ext3 工 作 得 好 ， 或 者 可 以 使 用 tunefs 关 闭 ext3 的 日 志 记 
录 功 能 。 挂 载 时 间 对 某 些 文件 系统 也 是 一 个 因素 。 例 如 ，ReiserFS， 在 
一 个 大 的 分 区 上 可 能 用 很 长 时 间 来 挂 载 和 执行 日 志 恢 复 。 


如 果 使 用 ext3 或 者 其 继承 者 ext4， 有 三 个 选项 来 控制 数据 怎么 记 日 
志 ， 这 可 以 放 在 /etc/fstab 中 作为 挂 载 选项 : 


data=wr i teback 





这 个 选项 意味 着 只 有 元 数据 写 入 日 志 。 元 数据 写 入 和 数据 写 入 
并 不 同步 。 这 是 最 快 的 配置 ， 对 InnoDB 来 说 通常 是 安全 的 ， 因 为 
InnoDB 有 自己 的 事务 日 志 。 唯 一 的 例外 是 ， 崩 尝 时 恰好 导致 .frm 文 
件 损坏 了 。 








这 里 给 出 一 个 使 用 这 个 配置 可 能 导致 问题 的 例子 。 当 程序 决定 
扩展 一 个 文件 使 其 更 大 ， 元 数据 (文件 大 小 ) 会 在 数据 实际 写 到 
CEKK) 文件 之 前 记录 并 写 下 操作 情况 。 结 果 就 是 文件 的 尾部 
一 一 最 新 扩展 的 区 域 一 一 会 包含 垃圾 数据 。 











data=ordered 
这 个 选项 也 只 会 记录 元 数据 ， 但 提供 了 一 些 一 致 性 保证 ， 在 写 


元 数据 之 前 会 先 写 数据 ， 使 它们 保持 一 致 。 这 个 选项 只 是 略微 比 
wr iteback 选 项 慢 ， 但 是 骨 尝 时 更 安全 。 





在 此 配置 中 ， 如 果 我 们 再 次 假设 程序 想 要 扩展 一 个 文件 ， 该 文 
件 的 元 数据 将 不 能 反映 文件 的 新 大 小 ， 和 直到 驻 留 在 新 扩展 区 域 中 的 
数据 被 写 到 文件 中 了 。 





data= journal 





此 选项 提供 了 原子 日 志 的 行为 ， 在 数据 写 入 到 最 终 位 置 之 前 将 
记录 到 日 志 中 。 这 个 选项 通常 是 不 必要 的 ， 它 的 开销 远 远 蜗 于 其 他 





两 个 选项 。 然 而 ， 在 茶 些 情况 下 反而 可 以 提高 性 能 ， 因 为 日 记 可 以 
让 文件 系统 延迟 把 数据 写 入 最 终 位 置 的 操作 。 


不 管 哪 种 文件 系统 ， 都 有 一 些 特定 的 选项 最 好 禁用 ， 因 为 它们 没有 
提供 任何 好 处 ， 反 而 增加 了 很 多 开销 。 最 有 名 的 是 记录 访问 时 间 的 选 
项 ， 甚 至 读 文 件 或 目录 时 也 要 进行 一 次 写 操 作 。 在 /etc/fstab 中 添加 
noatime、nodiratime 挂 载 选 项 可 以 禁用 此 选项 ， 这 样 做 有 时 可 以 提高 
59% 一 10% 的 性 能 ， 有 具体 取 雇 于 工作 负载 和 文件 系统 《虽然 在 其 他 场景 下 
差别 可 能 不 是 太 大 ) 。 下 面 是 /etc/fstab 中 的 一 个 例子 ， 对 ext3 选 项 做 设 
置 的 行 : 














/dev/sda2 /usr/lib/mysql ext3 noatime, nodiratime, data=writeba 


还 可 以 调整 文件 系统 的 预 读 的 行为 ， 因 为 这 可 能 也 是 多 余 的 。 例 
如 ，InnoDB 有 自己 的 预 读 策略 ， 所 以 文件 系统 的 预 读 就 是 重复 多 余 
的 。 禁 用 或 限制 预 读 对 Solaris 的 UFS 尤 其 有 利 。 使 用 0 DIRECT 选项 会 自 
动 禁 用 预 读 。 


一 些 文件 系统 可 能 不 支持 某 些 需要 的 功能 。 例 如 ， 奉 让 InnoDB 使 
用 0_DIRECT 刷 新 方式 ， 文 件 系统 能 文 持 Direct MO 是 非常 重要 的 。 此 外 ， 
一 些 文 件 系统 处 理 大 量 底层 驱动 器 比 其 他 的 文件 系统 更 好 ， 举 例 来 说 
XFS 在 这 方面 通常 比 ext3 好 。 最 后 ， 如 果 打 算 使 用 LVM 快 照 来 初始 化 备 
库 或 进行 备份 ， 应 该 确认 选择 的 文件 系统 和 LVM 版 本 能 很 好 地 协同 工 
Es 





表 9-4 茶 些 季 见 文件 系统 的 特性 总 结 。 
表 9-4: 常见 文件 系统 特性 


文件 系统 操作 系统 支持 日 志 大 目录 


Eye fe fe 


我 们 通常 建议 客户 使 用 XFS 文 件 系统 。ext3 文 件 系统 有 太 多 严重 的 
限制 ， 例 如 inode 只 有 一 个 互 斥 变量 ， 并 且 fsync 0 时 会 刷新 所 有 及 块 ， 
而 不 只 是 单个 文件 。 很 多 人 感觉 ext4 文 件 系 统 用 在 生产 环境 有 点 太 新 
了 ， 不 过 现在 似乎 正 日 益 普 





9.12 ”选择 磁盘 队列 调度 策略 


在 GNU/Linux 上 ， 队 列 调度 决定 了 到 块 设备 的 请 求实 际 上 发 送 到 底 
层 设 备 的 顺序 。 默 认 情 况 下 使 用 cfq (Completely Fair Queueing， 完 全 公 
平 排队 ) 策略 。 随 意 使 用 的 笔记 本 和 台式 机 使 用 这 个 调度 策略 没有 问 
题 ， 并 且 有 助 于 防止 7O 饥 狐 ， 但 是 用 于 服务 右 则 是 有 问题 的 。 在 
MySQL 的 工作 负载 类 型 下 ，cfq 会 导致 很 差 的 啊 应 时 间 ， 因 为 会 在 队列 
中 延迟 一 些 不 必要 的 请 求 。 





可 以 用 下 面 的 命令 来 查看 系统 所 有 文 持 的 以 及 当前 在 用 的 调度 集 
BS: 


$ cat /sys/block/sda/queue/scheduler 
noop deadline [cfq] 


这 里 sda 需 要 蔡 换 成 想 查 看 的 磁盘 的 盘 符 。 在 我 们 的 例子 中 ， 方 括 
号 表示 正在 使 用 的 调度 策略 。cfq 之 外 的 两 个 选项 都 适合 服务 器 级 的 硬 
件 ， 并 且 在 大 多 数 情况 下 ， 它 们 工作 同样 出 色 。noop 调 度 适 合 没有 自己 
的 调度 算法 的 设备 ， 如 人 硬件 RAID 控 制 器 和 SAN。dead1ine 则 对 RAID 控 
制 器 和 直接 使 用 的 磁盘 都 工作 良好 。 我 们 的 基准 测试 显示 ， 这 两 者 之 间 
的 差异 非常 小 。 重 要 的 是 别 用 cfq， 这 可 能 会 导致 严重 的 性 能 问题 。 


不 过 这 个 建议 也 需要 有 所 保留 的 ， 因 为 磁盘 调度 策略 实际 上 在 不 同 
的 内 核 有 很 多 不 一 样 的 地 方 ， 千 万 不 能 望 文生 义 。 


9.13 ”线程 


MySQL 每 个 连接 使 用 一 个 线程 ， 男 外 还 有 内 部 处 理 线程 、 特 殊 用 
途 的 线程 ， 以 及 所 有 存储 引擎 创建 的 线程 。 在 MySQL 5.5 中 ，Oracle 提 
供 了 一 个 线程 池 插 件 ， 但 目前 尚 不 清楚 在 实际 应 用 中 能 获得 什么 好 处 。 


无 论 哪 种 方式 ，MySQL 都 需要 大 量 的 线程 才能 有 效 地 工作 。 
MySQL 确 实 需 要 内 核 级 线程 的 文 持 ， 而 不 只 是 用 户 级 线程 ， 这 样 才 能 
更 有 效 地 使 用 多 个 CPU。 太 外 也 需要 有 效 的 同步 原子 ， 例 如 互 斥 变 量 。 
操作 系统 的 线程 库 必须 提供 所 有 的 这 些 功能 。 


GNU/Linux 提 供 两 个 线程 库 : LinuxThreads 和 新 的 原生 POSIX 线 程 
Æ (NPTL) 。LinuxThreads 在 某 些 情况 下 仍然 使 用 ， 但 现在 的 发 行 版 已 
经 切换 到 NPTL， 并 且 大 部 分 应 用 已 经 不 再 加 载 LinuxThreads。NPTL 更 
轻 量 ， 更 高 效 ， 也 不 会 有 那些 LinuxThreads 示 到 的 问题 。 


FreeBSD 会 加 载 许 多 线程 库 。 从 历史 上 看 ， 它 对 线程 的 文 持 很 弱 ， 
但 现在 已 经 变 得 好 多 了 ， 在 一 些 测试 中 ， 甚 至 优 于 SMP 系 统 上 的 
GNU/Linux。 在 FreeBSD 6 和 更 新 版 本 ， 推 荐 的 线程 库 是 libthr， 早 期 版 
本 使 用 的 linuxthreads， 是 FreeBSD 从 GNU/Linux 上 移植 的 LinuxThreads 
库 。 














通常 ， 线 程 问 题 都 是 过 去 的 事 了 ， 现 在 GNU/Linux 和 FreeBSD 都 提 
供 了 很 好 的 线程 库 。 


Solaris 和 Windows 一 直 对 线程 有 很 好 的 支持 ， 尺 管 直 到 5.5 发 布 之 
前 ，MyISAM 都 不 能 在 Windows 下 很 好 地 使 用 线程 ， 但 5.5 里 有 显著 的 提 





9.14 内存 交换 区 


当 操作 系统 因为 没有 足够 的 内 存 而 将 一 些 虚 拟 内 存 写 到 磁盘 就 会 用 
生 内 存 交 换 鳞 。 内 存 交 换 对 操作 系统 中 运行 的 进程 是 透明 的 。 只 有 操 
作 系 统 知 道 特定 的 虚拟 内 存 地 址 是 在 物理 内 存 还 是 硬盘 。 


内 存 交 换 对 MYSQL 性 能 影响 是 很 糖 糙 的 。 它 破坏 了 组 存在 内 存 的 
目的 ， 并 且 相 对 于 使 用 很 小 的 内 存 做 缓存 ， 使 用 交换 区 的 性 能 更 差 。 
MySQL 和 存储 引擎 有 很 多 算法 来 区 别 对 符 内 存 中 的 数据 和 硬盘 上 的 数 
据 ， 因 为 一 般 都 假设 内 存 数据 访问 代价 更 低 。 








因为 内 存 交 换 对 用 户 进程 不 可 见 ，MySQL (或 存储 引擎 ) 并 不 知 
道 数据 实际 上 已 经 移动 到 磁盘 ， 还 会 以 为 在 内 存 中 。 





结果 会 导致 很 差 的 性 能 。 例 如 ， 若 存储 引擎 认为 数据 依然 在 内 存 ， 
可 能 觉得 为 “短暂 ”的 内 存 操作 锁定 一 个 全 局 互 斥 变量 〈 例 如 InnoDB 绥 冲 
池 Mnutex) 是 OK 的 。 如 果 这 个 操作 实际 上 引起 了 硬盘 IO， 直 到 IO 操作 
完成 前 任何 操作 都 会 被 挂 起 。 这 意味 着 内 存 交 换 比 直接 做 硬盘 IO 操作 


还 要 糟糕 。 





在 GNU/Linux 上 ， 可 以 用 vmstat( 在 下 一 部 分 展示 了 一 些 例子 ) 来 
监控 内 存 交 换 。 最 好 得 看 si 和 so 列 报告 的 内 存 交 换 UVO 活 动 ， 这 比 
看 swpd 列 报告 的 交换 区 利用 率 更 重要 。swpd 列 可 以 展示 那些 被 载 入 了 但 
是 没有 被 使 用 的 进程 ， 它 们 并 不 是 真 的 会 成 为 问题 。 我 们 喜欢 si 和 so 列 
的 值 为 0， 并 且 一 定 要 保证 它们 低 于 每 秒 10 个 块 。 


极端 的 场景 下 ， 太 多 的 内 存 交 换 可 能 导致 操作 系统 交换 空间 溢出 。 


如 果 发 生 了 这 种 情况 ， 缺 乏 虚 拟 内 存 可 能 让 MySQL 骨 尝 。 但 是 即使 交 
换 空 间 没 有 溢出 ， 非 党 活跃 的 内 存 交 换 也 会 导致 整个 操作 系统 变 得 无 法 


啊 应 ， 到 这 种 时 候 甚 至 不 能 登录 系统 去 杀 斥 MySQL 进程 。 有 时 当 交 换 
空间 溢出 时 ， 甚 至 Linux 内 核 都 会 完全 hang 住 。 


绝 不 要 让 系统 的 虚拟 内 存 洪 出 ! 对 交换 空 


。 如 果 不 知 道 需 要 多 少 交 换 空间 ， 就 在 人 硬盘 上 尺 可 能 多 地 分 配 空间 ， 

这 不 会 对 性 能 造成 冲击 ， 只 是 消耗 了 硬盘 空间 。 有 些 大 的 组 织 清 楚 地 知 
道内 存 消耗 将 有 多 大 ， 并 且 内 存 交 换 被 非常 严格 地 控制 ， 但 是 对 于 只 有 
少量 多 用 途 的 MySQL 实 例 ， 并 且 工 作 负 载 也 多 种 多 样 的 环境 ， 通 常 不 
切实 际 。 如 果 后 者 的 描述 更 符合 实际 情况 ， 确 认 给 服务 嚣 一些“ 呼吸” 的 
空间 ， 分 配 足 够 的 交换 空间 。 


s 间 利用 率 做 好 监控 和 报 











在 特别 大 的 内 存 压力 下 经 常 发 生 的 男 一 件 事 是 内 存 不 足 
(OOM) ， 这 会 导致 踢 掉 和 杀 掉 一 些 进程 。 在 MySQL 进 程 这 很 常见 。 
在 另外 的 进程 上 也 挺 常见 ， 比 如 SSH， 甚 至 会 让 系统 不 能 从 网 络 访问 。 
可 以 通过 设置 SSH 进 程 的 oom_adj 或 oom_score_adj 值 来 避免 这 种 情况 


可 以 通过 正确 地 配置 MYSQL 绥 冲 来 解决 大 部 分 和 内存 交 换 问 题 ， 但 
是 有 时 操作 系统 的 虚拟 内 存 系统 还 是 会 决定 交换 MySQL 的 内 存 。 这 通 
各 发 生 在 操作 系统 看 到 MySQL 及 出 了 大 量 IO， 因 此 答 试 增加 文件 缓存 


来 保存 更 多 数据 时 。 如 果 没 有 足够 的 内 存 ， 有 些 东西 就 必须 被 交换 出 
去 ， 有 些 可 能 就 是 MySQL 本 里 。 有 些 老 的 Linux 内 核 版 本 也 有 一 些 适 得 
其 反 的 优先 级 ， 导 致 本 不 应 该 被 交换 的 被 交换 出 去 ,但 是 在 最 近 的 内 核 
都 被 绥 解 了 。 








有 些 人 主张 完全 茶 用 交换 文件 。 尽 管 这 样 做 有 时 在 某 些 内 核 拒绝 工 
作 的 极端 场景 下 是 可 行 的 ， 但 这 降低 了 操作 系统 的 性 能 





(在 理论 上 不 


会 ， 但 是 实际 上 会 的 ) 。 同 时 这 样 做 也 是 很 危险 的 ， 因 为 禁用 内 存 交 换 
就 相当 于 给 虚拟 内 存 设置 了 一 个 不 可 动摇 的 限制 。 如 果 MySQL 需 要 临 
时 使 用 很 大 一 块 内 存 ， 或 者 有 很 耗 内 存 的 进程 运行 在 同一 台 机 器 (如 夜 
间 批 量 任务 ) ，MySQL 可 能 会 内 存 洲 出 、 朋 江 ， 或 者 被 操作 系统 杀 
死 。 


操作 系统 通常 允许 对 虚拟 内 存 和 1/O 进 行 一 些 控制 。 我 们 提供 过 一 
些 GNU/Linux 上 控制 它们 的 办 法 。 最 基本 的 方法 是 修 
改 /proc/sys/wm/swappiness 为 一 个 很 小 的 值 ， 例 如 0 或 1。 这 告诉 内 核 除 非 
虚拟 内 存 完 全 满 了 ， 和 否则 不 要 使 用 交换 区 。 下 面 是 如 何 检 查 这 个 值 的 例 
Ť: 








$ cat /proc/sys/vm/swappiness 


60 


这 个 值 显示 为 60， 这 是 默 认 的 设置 〈 范 围 是 0 一 100) 。 对 服务 器 而 
言 这 是 个 很 糟糕 的 默认 值 。 这 个 值 只 对 笔记 本 适用 。 服 务 器 应 该 设置 为 


F 也 


$ echo 0 > /proc/sys/vm/swappiness 





另 一 个 选项 是 修改 存储 引擎 怎么 读 取 和 写 入 数据 。 例 如 ， 使 
Fd innodb_flush_method=0 DIRECT, RIOJ]. Direct WOFFA 
存 ， 因 此 操作 系统 并 不 能 把 MySQL 视 为 增加 文件 缓存 的 原因 。 这 个 参 
数 只 对 InnoDB 有 效 。 你 也 可 以 使 用 大 页 ， 不 参与 换 入 换 出 。 这 对 
MyISAM 和 InnoDB 都 有 效 。 


另 一 个 选择 是 使 用 MySQL 的 memlock 配 置 项 ， 可 以 把 MySQL 锁 定 
在 内 存 。 这 可 以 避免 交换 ， 但 是 也 可 能 带 来 危险 : 如 果 没 有 足够 的 可 锁 


定 内 存 ，MVySQL 在 尝试 分 配 更 多 内 存 时 会 月 误 。 这 也 可 能 导致 锁定 的 
内 存 太 多 而 没有 足够 的 内 存留 给 操作 系统 。 


很 多 技巧 都 是 对 于 特定 内 核 版 本 的 ， 因 此 要 小 心 ， 尤 其 是 当 升 级 的 
时 候 。 在 某 些 工作 负载 下 ， 很 难 让 操作 系统 的 行为 合情合理 ， 并 且 仅 有 
的 资源 可 能 让 缓冲 大 小 达 不 到 最 满意 的 值 。 


9.15 ”操作 系统 状态 


a 系统 会 提供 一 些 帮 助 发 现 操作 系统 和 硬件 正在 做 什么 的 工具 。 
在 这 一 节 ， 我 们 会 展示 一 些 例 子 ， 包 括 关 于 怎样 使 用 两 个 最 常用 的 工具 
A a 如 果 系 统 不 提供 它们 中 的 任何 一 个 ， 有 可 能 提供 了 
相似 的 蔡 代 品 。 因 此 ， 我 们 的 目的 不 是 让 大 家 熟练 使 用 iostat 和 vmstat， 
告诉 你 用 类 似 的 工具 诊断 问题 时 应 该 看 什么 指标 。 





除了 这 些 ， 操 作 系 统 也 许 还 提供 了 其 他 的 工具 ， 如 mpstat 或 者 sar。 
如 果 对 系统 的 其 他 部 分 感 兴趣 ， 例 如 网 络 ， 你 可 能 希望 使 用 ifconfig〔 除 
了 其 他 信息 ， 它 能 显示 发 生 了 多 少 次 网 络 错误 ) 或 者 netstat。 


默认 情况 下 ， 4 是 生成 一 个 报告 ， 展 示 目 系统 启动 以 
来 很 多 计数 器 的 平均 值 ， 这 其 实 没什么 用 。 然 而 ， 两 个 工具 都 可 以 给 出 
一 个 间隔 参数 ， 让 它们 生成 增 量 值 的 报告 ， 展 示 服 务 器 正在 做 什么 ， 这 
更 有 用 。【〔 第 一 行 显示 的 是 系统 启动 以 来 的 统计 ， 通 党 可 以 忽略 这 一 
Te) 





9.15.1 如何 疯 读 vmstat 的 输出 
我 们 先 看 一 个 vmstat 的 例子 。 用 下 面 的 命令 让 它 每 5 秒 钟 打印 出 一 个 


$ vmstat 5 

procs == memory---------- --- swap-- -----io---- -system-- ---- cpu---- 
r b swpd free buff cache si so bi bo in cs us sy id wa 
0 O 2632 25728 23176 740244 0 O 527 524 1 390 186 3 
O O 2632 27808 23180 738248 0 0 2 430 222 66 2 097 0 


可 以 用 Ctrl+C 停 止 vmstat。 可 以 看 到 输出 依赖 于 所 用 的 操作 系统 ， 
因此 可 能 需要 阅读 一 下 手册 来 解读 报告 。 





刚 局 动 不 入 ， 即 使 采用 增 量 报告 ， 第 一 行 的 值 还 是 显示 目 系 统 司 动 
以 来 的 平均 值 ， 第 二 行 开 始 展示 现在 正在 发 生 的 情况 ， 接 下 来 的 行 会 展 
示 每 5 秒 的 间隔 内 发 生 了 什么 。 每 一 列 的 含义 在 头 部 ， 如 下 所 示 : 


procs 


r 这 一 列 显示 了 多 少 进程 正在 等 待 CPU，b 列 显示 多 少 进程 正在 
不 可 中 断 地 休眠 《通常 意味 着 它们 在 等 竺 TO， 例 如 磁盘 、 网 络 、 
用 户 输入 ， 等 等 )。 





memory 


swpd 列 显示 多 少 块 被 换 出 到 了 磁盘 《页 面 交换 ) 。 剩 下 的 三 个 
列 显示 了 多 少 块 是 空 几 的 (未 被 使 用 ) 、 多 少 块 正 在 被 用 作 绥 冲 ， 
以 及 多 少 正 在 被 用 作 操 作 系 统 的 缓存 。 


swap 





这 些 列 显示 页 面 交 换 活动 : 每 秒 有 多 少 块 正 在 被 换 入 《从 破 
盘 ) 和 换 出 (到 磁盘 ) 。 它 们 比 监 控 swpd 列 重要 多 了 。 


大 部 分 时 间 我 们 喜欢 看 到 si 和 so 列 是 0， 并 且 我 们 很 明确 不 希 
望 看 到 每 秒 超 过 10 个 块 。 突 发 性 的 高 峰 一 样 很 糟 糙 。 


这 些 列 显示 有 多 少 块 从 块 设 备 读 取 (bi) 和 写 出 (bo) 。 这 通 


党 反映 了 硬盘 IO。 
system 


这 些 列 显示 了 每 秒 中 断 Cin) 和 上 下 文 切换 (cs) 的 数量 。 


cpu 


这 些 列 显示 所 有 的 CPU 时 间 花 费 在 各 类 操作 的 百分比 ， 包 括 执 
行 用 户 代 码 〈 非 内 核 ) 、 执 行 系统 代码 《内 核 ) 、 空 间 ， 以 及 等 待 
IO。 如 果 正 在 使 用 虚拟 化 ， 则 第 五 个 列 可 能 是 st， 显 示 了 从 虚拟 
机 中 “ 偷 走 ” 的 百分比 。 这 关系 到 那些 虚拟 机 想 运行 但 是 系统 管理 程 
序 转 而 运行 其 他 的 对 象 的 时 间 。 如 有 果 虚 拟 机 不 希望 运行 任何 对 象 ， 
但 是 系统 管理 程序 运行 了 其 他 对 象 ， 这 不 算 被 偷 走 的 CPU 时 间 。 


vmstat 的 输出 跟 系统 有 关 ， 所 以 如 果 看 到 跟 我 们 展示 的 例子 不 同 的 
输出 ， 应 该 阅读 系统 的 vmstat (8) 手册 。 一 个 重要 的 提示 是 : 内 存 、 交 
换 区 ， 以 及 IO 统计 是 块 数 而 不 是 字 节 。 在 GNU/Linux， 块 大 小 通常 是 1 
024 字 市 。 


9.15.2 ”如 何 阅 读 iostat 的 输出 


现在 让 我 们 转移 到 iostate3。 默 认 情况 下 ， 它 显示 了 与 vmstat 相 同 的 
CPU 使 用 信息 。 我 们 通常 只 是 对 MO 统计 感 兴趣 ， 所 以 使 用 下 面 的 命令 
只 展示 扩展 的 设备 统计 : 


$ iostat -dx 5 


Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrd-Sz avgqu-s 


sda 1.6 2.8 2.5 1.8 138.8 36.9 40.7 0. 








与 vmstat 一 样 ， 第 一 行 报告 显示 的 是 自 系统 局 动 以 来 的 平均 值 〈 通 
常 删 掉 它 节省 空间 〉， 然 后 接 下 来 的 报告 显示 了 增 量 的 平均 值 ， 每 个 设 
备 一 行 。 











有 多 种 选项 显示 和 隐藏 列 。 官 方 文档 有 后 难以 理解 ， 因 此 我 们 必须 
从 源码 中 挖掘 真正 显示 的 内 容 是 什么 。 说 明 的 列 信 息 如 下 : 





rrqm/s#ewrqm/s 





每 秒 合并 的 读 和 写 请 求 。“ 合 并 的 ”意味 着 操作 系统 从 队列 中 拿 
出 多 个 逻辑 请 求 合并 为 一 个 请 求 到 实际 磁盘 。 


r/s#ew/s 
每 秒 发 送 到 设备 的 读 和 写 请 求 。 
rsec/s#ewsec/s 


每 秒 读 和 写 的 肩 区 数 。 有 些 系统 也 输出 为 rkB/s 和 wkB/s， 意 为 
每 秒 读 写 的 千 字 节 数 。 为 了 简洁 ， 我 们 省 略 了 那些 指标 说 明 。 


avgrq-sz 
WDR AY ag X 2 
avgqu-Ssz 


在 设备 队列 中 等 待 的 请 求 数 。 


await 


磁盘 排队 上 花费 的 坚 秒 数 。 很 不 垃 ，iostat 没 有 独立 统计 读 和 号 
的 请 求 ， 筷 们 实际 上 不 应 该 被 一 起 平均 。 当 你 诊断 性 能 案例 时 这 通 
常 很 重要 。 


svctm 
服务 请 求人 花费 的 毫秒 数 ， 不 包括 排队 时 间 。 
%uti | 


至 少 有 一 个 活跃 请 求 所 占 时 间 的 百分比 。 如 果 熟 悉 队 列 理论 中 
利用 率 的 标准 定义 ， 那 么 这 个 命名 很 英名 其 妙 。 它 其 实 不 是 设备 的 
利用 紊 。 超 过 一 块 硬 盘 的 设备 (例如 RAID 控 制 器 〉 比 一 块 人 硬盘 的 
设备 可 以 支持 更 高 的 并 发 ， 但 是 %util 从 来 不 会 超过 100%， 除 非 在 
计算 时 有 四 舍 五 入 的 错误 。 因 此 ， 这 个 指标 无 法 真实 反映 设备 的 利 
用 率 ， 实 际 上 跟 文档 说 的 相反 ， 除 非 只 有 一 块 物理 磁盘 的 特殊 例 
了 





可 以 用 iostat 的 输出 推断 某 些 关于 机 器 IO 子 系统 的 实际 情况 。 一 个 
重要 的 度量 标准 是 请 求 服 务 的 并 发 数 。 因 为 读 写 的 单位 是 每 秒 而 服务 时 
闻 的 单位 是 千 分 之 一 秒 ， 所 以 可 以 利用 利 特 尔 法 则 《Littes Law) 得 到 
下 面 的 公式 ， 计 算出 设备 服务 的 并 发 请 求 数 名 : 


concurrency = (r/s + w/s) * (svctm/1000) 


这 是 一 个 iostat 的 输出 示例 : 


Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-Sz avg 


sda 105 311 298 820 3236 9052 10 1 


把 数字 带 入 并 发 公式 ， 可 以 得 到 差不多 9.6 的 并 发 性 SD。 这 意味 着 
在 一 个 采样 周期 内 ， 这 个 设备 平均 要 服务 9.6 次 的 请 求 。 例 子 来 自 于 一 
个 10 块 盘 的 RAID 10 卷 ， 所 以 操作 系统 对 这 个 设备 的 并 行 请 求 运 行 得 相 
当 好 。 男 一 方面 ， 这 是 一 个 出 现 串 行 请 求 的 设备 : 


Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-Sz a 


sdc 81 0 280 0 3164 0 11 


并 发 公式 展示 了 这 个 设备 每 秒 只 处 理 一 个 请 求 。 两 个 设备 都 接近 于 
满 负荷 利用 ， 但 是 它们 的 性 能 表现 完全 不 一 样 。 如 果 设 备 一 耻 孝 像 这 些 
例子 展示 的 一 样 忙 ， 那 么 应 该 检查 一 下 并 发 性 ， 不 管 是 不 是 接近 于 设备 
中 的 物理 盘 数 ， 痢 需要 注意 。 更 低 的 值 则 说 明 有 如 文件 系统 串 行 的 问 
题 ， 就 像 我们 前 面 讨论 的 。 


9.15.3 ”其 他 有 用 的 工具 


我 们 展示 vmstat 和 iostat 是 因为 它们 部 署 最 广泛 ， 并 且 vmstat 通 常 默 
认 安 装 在 许多 类 UNIX 操 作 系统 上 。 然 而 ， 每 种 工具 都 有 上 自身 的 限制 ， 
例如 莫名 奇妙 的 度量 单位 、 当 操作 系统 更 新 统计 时 取样 间隔 不 一 致 ， 以 
及 不 能 一 次 性 看 到 所 有 重要 的 点 。 如 果 这 些 工 具 不 能 符合 需求 ， 你 可 能 
会 对 dstat Chttp://dag.wieers.com/home-made/dstat/) 或 collectl 
(http://collectl.sourceforge.net) 感 兴趣 。 

















我 们 也 喜欢 用 mpstat 来 观察 CPU 统计 ; 它 提供 了 更 好 的 办 法 来 观察 


CPU 每 个 工作 是 如 何 进行 的 ， 而 不 是 把 它们 搅 在 一 块 。 有 时 在 诊断 问题 
时 这 非常 重要 。 当 分 析 人 硬盘 IO 利 用 的 时 候 ，biktrace 可 能 也 非常 有 用 。 


我 们 上 自己 开发 了 iostat 的 蔡 代 品 ， 叫 做 pt-diskstats。 这 是 Percona 
Toolkit 的 一 部 分 。 它 解决 了 一 些 对 iostat 的 抱怨 ， 例 如 显示 读 写 统计 的 方 
式 ， 以 及 缺乏 对 并 发 量 的 可 见 性 。 它 也 是 交互 式 的 ， 并 且 是 按键 驱动 
的 ， 所 以 可 以 放大 缩小 、 改 变 聚 集 、 过 滤 设 备 ， 以 及 显示 和 隐藏 列 。 即 
PR 也 可 以 通过 简单 的 Shell 脚 本 来 收集 一 些 硬盘 统计 
状态 ， 这 个 工具 也 支持 分 析 这 样 采集 出 来 的 文本 。 可 以 抓 取 一 些 硬 盘活 
动 样本 ， 然 后 发 邮件 或 者 保存 起 来 ， 稍 后 分 析 。 实 际 上 ， 我 们 第 3 章 中 
介绍 的 pt-stalk、pt-collect、 和 pt-sift 三 件 套 ， 都 被 设计 得 可 以 跟 pt- 
diskstats 很 好 地 配合 。 


9.15.4 ” ”CPU 密集 型 的 机 器 





CPU 密 集 型 服务 占 的 vmstat 输 出 通常 在 us 列 会 有 一 个 很 蝇 的 值 ， 报 
告 了 花费 在 非 内 核 代 码 上 的 CPU 时 钟 ， 也 可 能 在 sy 列 有 很 高 的 值 ， 表 示 
系统 CPU 利 用 紊 ， 超 过 20% 束 足以 令 人 不 安 了 。 在 大 部 分 情况 下 ， 也 会 
有 进程 队列 排队 时 间 (在 r 列 报告 的 ) 。 下 面 是 一 个 例子 : 








$ vmstat 5 
procs, ---=---=--- memory---------- en swap-- ----- Tires == system-- ---- cpu---- 
r b swpd free buff cache si so bi bo in cs us sy id wa 
10 2 740880 19256 46068 13719952 0 0 2788 11047 1423 14508 89 4 4 3 
11 0 740880 19692 46144 13702944 0 0 2907 14073 1504 23045 90 5 
7 1 740880 20460 46264 13683852 0 0 3554 15567 1513 24182 88 

0 


2 3 
> 3 8 
10 2 740880 22292 46324 13670396 0 2640 16351 1520 17436 88 4 4 3 


注意 ， 这 里 也 有 合理 数量 的 上 下 文 切 换 〈 在 cs 列 ) ， 除 非 每 秒 超过 
100000 次 或 更 多 ， 一 般 都 不 用 担心 上 下 文 切换 。 当 操作 系统 停止 一 个 进 
程 转 而 运行 另 一 个 进程 时 ， 就 会 产生 上 下 文 切换 。 








PUN, AWA) fEMyISAM Edy SNAP te RAG, ME 
TEMAS eum, MANAGE AR ol RN ett EE N. WR TES 
在 操作 系统 缓存 中 ， 束 需要 从 磁盘 进行 物理 读 取 ， 这 束 会 导致 上 下 文 切 
换 中 断 进 程 处 理 ， 直 到 1/O 完 成 。 这 样 一 个 查询 可 以 导致 大 量 的 上 下 文 
切换 。 








如 果 我 们 在 同一 台 机 器 观察 iostat 的 输出 (再 次 吻 除 显示 启动 以 来 
平均 值 的 第 一 行 ) ， 可 以 发 现 磁 盘 利 用 率 低 于 50%: 


$ iostat -dx 5 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm “util 


sda O 3859 54 458 2063 34546 7a 3 6 1 47 
dm-o 0 0 54 4316 2063 34532 8 18 4 0 47 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm “util 
sda 0 2898 52 363 1767 26090 67 3 7 1 45 
dm-0 0 0 52 3261 1767 26090 8 15 5 0 45 


这 人 台 机 器 不 是 IO 窗 集 型 的 ， 但 是 依然 有 相当 数量 的 IO 发 生 ， 在 数 
据 库 服务 圳 中 这 种 情况 很 少见 。 另 一 方面 ， 传 统 的 web 服务 器 会 消耗 大 
量 CPU 资 源 ， 但 是 很 少 发 生 IO， 所 以 Web 服 务 需 的 输出 不 会 像 这 个 例 
子 。 





9.15.5 IO 密集 型 的 机 器 


在 IO 密集 型 工作 负载 下 ，CPU 花 费 大 量 时 间 在 等 待 O 请 求 完 成 。 
这 意味 着 vmstat 会 显示 很 多 处 理 器 在 非 中 断 休 眠 (b 列 ) 状态 ， 并 且 在 wa 
这 一 列 的 值 很 高 ， 下 面 是 个 例子 : 





$ vmstat 5 
procs. = memory---------- ---swap-- ----- = = system-- ---- cpu---- 
r b swpd free buff cache sis bi bo in cs us sy id wa 


5 7 740632 22684 43212 13466436 0 
5 7 740632 22748 43396 13465436 0 
1 8 740632 22380 43416 13464192 0 
5 6 740632 22116 43512 13463484 0 


0 

O 6738 17222 1738 16648 19 3 15 63 
© 6150 17025 1731 16713 18 4 21 58 
0 4582 21820 1693 15211 16 4 24 56 
© 5955 21158 1732 16187 17 4 23 56 





这 人 台 机 器 的 iostat 输 出 显示 硬盘 一 直 很 忙 : 2 


$ iostat -dx 5 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 


sda 0 5396 202 626 7319 48187 66 12 14 A 101 
dm-0 0 0 202 6016 7319 48130 8 by | 9 0 101 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 
sda 0 5810 184 665 6441 51825 68 11 13 i 102 
dm-0 0 0 183 6477 6441 51817 8 54 7 0 102 


%uti1 的 值 可 能 因为 四 舍 五 入 的 错误 超过 100%。 什 么 迹象 意味 着 机 
器 是 VO 密集 的 呢 ? 只 要 有 足够 的 缓冲 来 服务 写 请 求 ， 即 使 机 器 正在 做 
大 量 的 写 操作 ， 也 可 能 可 以 满足 ， 但 是 却 通常 意味 着 硬盘 可 能 会 无 法 满 
足 读 请 求 。 这 听 起 来 好 象 违 反 直 觉 ， 但 是 如 果 思 考 读 和 写 的 本 质 ， 就 不 
会 这 么 认为 了 : 











。 写 请 求 能 够 缓冲 或 同步 操作 。 它 们 可 以 被 我 们 本 书 讨论 过 的 任意 一 
层 缓冲 : 操作 系统 层 、RAID 控 制 器 层 ， 等 等 。 

。 读 请 求 就 其 本 质 而 言 都 是 同步 的 。 当 然 程 序 可 以 猜测 到 可 能 需要 某 
些 数据 ， 并 异步 地 提前 读 取 〈 预 读 ) 。 无 论 如 何 ， 通 常 程序 在 继续 
工作 前 必须 得 到 它们 需要 的 数据 。 这 就 强制 读 请 求 为 同步 操作 : FE 
序 必须 被 阻塞 直到 请 求 完 成 。 








想 想 这 种 方式 : 你 可 以 发 出 一 个 写 请 求 到 缓冲 区 的 某 个 地 方 ， 然 后 
过 一 会 完成 。 甚 至 可 以 每 秒 发 出 很 多 这 样 的 请 求 。 如 果 绥 冲 区 正确 工 
作 ， 并 且 有 足够 的 空间 ， 每 个 请 求 都 可 以 很 快 完 成 ， 并 且 实 际 上 写 到 物 
理 人 硬盘 是 被 重新 排序 后 更 有 效 地 批量 操作 的 。 然 而 ， 没 有 办 法 对 读 操作 
这 么 做 一 一 个 管 多 小 或 多 少 的 请 求 ， 都 不 可 能 让 硬盘 啊 应 说 “这 是 你 的 
数据 ， 我 等 一 会 读 它 ”。 这 就 是 为 什么 读 需 要 IO 等 竺 是 可 以 理解 的 原 
因 。 











9.15.6 AEWA ACR ALAS 


一 台 正 在 发 生 内 存 交 换 的 机 器 可 能 在 swpd 列 有 一 个 很 高 的 值 ， 也 可 
能 不 高 。 但 是 可 以 看 到 si 和 so 列 有 很 高 的 值 ， 这 是 我 们 不 希望 看 到 的 。 
下 面 是 一 台 内 存 交 换 严 重 的 机 絮 的 vmstat 输 出 : 


$ vmstat 5 

procs ----------- memory------------- --- sWap---- ----- jo--== -- system-- ---- ¢pu---- 
xr b swpd free buff cache si so bi bo in cs us sy id wa 
0 10 3794292 24436 27076 14412764 19853 9781 57874 9833 4084 8339 6 14 58 22 
4 11 3797936 21268 27068 14519324 15913 30870 40513 30924 3600 7191 6 11 36 47 
O 37 3847364 20764 27112 14547112 171 38815 22358 39146 2417 4640 6 8 977 


9.15.7 空 闪 的 机 器 


为 完整 起 见 ， 下 面 也 给 出 一 台 空 闲 机 器 上 的 vmstat 输 出 。 注 意 ， 没 
有 在 运行 或 被 阻 堵 的 进程 ，idle 列 显示 CPU 是 100% 的 空 亲 。 这 个 例子 
来 源 于 一 台 运 行 红 帽子 企业 版 Linux 5 (RHEL 5) 的 机 器 ， 并 且 st 列 展 
示 了 从 “虚拟 机 ” 偷 来 的 时 间 。 


$ vmstat 5 

procs = Nemony===-s==s5= ESS swap-- ----- OS =< system-- ----- (0! 
r b swpd free buff cache si so bi bo in cs us sy id wa st 
O 10 108 492556 6768 360092 0 O 345 209 2 65 2 OF 97 4 0 
© © 108 492556 6772 360088 0 0 0 14 357 19 0 0180 0 0 
0 o 108 492556 6776 360084 0 0 0 6 355 16 0 0100) © 0 


916 总结 


为 MySQL 选 择 和 配置 硬件 ， 以 及 根据 硬件 配置 MySQL， 并 不 是 什 
么 神秘 的 艺术 。 通 常 ， 对 于 大 部 分 目标 需要 的 都 是 相同 的 技巧 和 知识 。 
当然 ， 也 需要 知道 一 些 MySQL 特 有 的 特点 。 


我 们 通常 建议 大 部 分 人 在 性 能 和 成 本 之 间 找 到 一 个 好 的 平衡 点 。 首 
先 ， 出 于 多 种 原因 ， 我 们 喜欢 使 用 廉价 服务 器 。 举 个 例子 ， 如 果 在 使 用 
服务 器 的 过 程 中 过 到 了 麻烦 ,并且 在 诊断 时 需要 停止 服务 ， 或 者 希望 只 
古 简 单 地 把 出 问题 的 服务 器 用 另 一 人 台 葵 换 ， 如 果 使 用 的 是 一 合 $5000 的 
廉价 服务 器 ， 肯 定 比 使 用 一 台 超 过 $50000 或 者 更 贵 的 服务 器 要 简单 得 
多 。MySQL 通 币 也 更 适应 廉价 服务 器 ， 不 管 是 从 软件 自身 而 言 还 是 从 
典型 的 工作 负载 而 言 。 








MySQL 需 要 的 四 种 基本 资源 是 CPU、 内 存 、 硬 盘 以 及 网 络 次 
源 。 网 络 一 般 不 会 作为 很 严重 的 瓶颈 出 现 ， 而 CPU、 内 存 和 磁盘 通常 是 
主要 的 瓶颈 所 在 。 对 MySQL 而 言 ， 通 常 希望 有 很 多 快速 CPU 可 以 用 ， 
但 如 果 必 须 在 快 和 多 之 间 做 选择 ， 则 一 般 会 选择 更 快 而 不 是 更 多 (其 他 
条 件 相同 的 情况 下 ) 。 





CPU、 入 存 以 及 磁盘 之 间 的 关系 错综复杂 ， 一 个 地 方 的 问题 可 能 会 
在 其 他 地 方 显 现 出 来 。 在 对 一 个 资源 抛 出 问题 时 ， 问 问 上 自己 是 不 是 可 能 
是 由 另外 的 问题 导致 的 。 如 果 遇 到 硬盘 密集 的 操作 ， 需 要 更 多 的 IO 容 
量 吗 ? 或 者 是 更 多 的 内 存 ? 答案 取决 于 工作 集 大 小 ， 也 惑 是 给 定 的 时 间 
内 最 常用 的 数据 集 。 





在 本 书写 作 的 过 程 中 ， 我 们 觉得 以 下 做 法 是 合理 的 。 首 先 ， 通 常 不 
要 超过 两 个 插 模 。 现 在 即使 双 路 系统 也 可 以 提供 很 多 CPU 核 心 和 硬件 线 
程 了 ， 而 且 四 路 服务 器 的 CPU 要 贵 得 多 。 另 外 ， 四 路 CPU 的 使 用 不 够 广 
泛 〈 也 就 意味 着 缺少 测试 和 可 靠 性 ) ， 并 且 使 用 的 是 更 低 的 时 钟 频率 。 
最 终 ， 四 路 插 槽 的 系统 跨 插 槽 的 同步 开销 也 显著 增加 。 在 内 存 方面 ， 我 
们 喜欢 用 价格 经 济 的 服务 器 内 存 。 许 多 廉价 服务 器 目前 有 18 个 DIMM 
槽 ， 单 条 8GB 的 DIMM 是 最 好 的 选择 一 一 每 GB 的 价格 与 更 低 容量 的 
DIMM 相 比 差 不 多 ， 但 是 比 16GB 的 DIMM 便 宜 多 了 。 这 是 为 什么 我 们 今 
天 看 到 很 多 服务 器 是 144GB 的 内 存 的 原因 。 这 个 等 式 会 随 着 时 间 的 变化 
而 变化 一 一 可 能 有 一 天 具有 最 佳 性 价 比 的 是 16GB 的 DIMM， 并 且 服 务 
器 出 广 的 内 存 槽 数量 也 可 能 不 一 样 一 一 但 是 一 般 的 原则 还 是 一 样 的 。 











持久 化 存储 的 选择 本 质 上 归结 为 三 个 选项 ， 以 提高 性 能 的 次 序 排 
Fe: SAN、 传 统 硬盘 ， 以 及 固态 存储 设备 。 





当 需 要 功能 和 纯粹 的 容量 时 ，SAN 是 不 错 的 。 它 们 对 许多 工作 负载 
都 运行 得 不 错 ， 但 缺点 是 很 昂 贯 ， 并 且 对 小 的 随机 IO 操作 有 很 大 
的 延 时 ， 尤 其 是 使 用 更 慢 的 互联 方式 (如 NFS) 或 工作 集 太 大 不 足 
以 匹配 SAN 内 存 的 缓存 时 ， 延 时 会 更 大 。 要 注意 SAN 的 性 能 突变 的 
情况 ， 并 且 要 非常 小 心 避免 灾难 的 场景 。 

传统 硬盘 很 大 ， 便 宜 ， 但 是 对 随机 读 很 慢 。 对 大 部 分 场景 ， 最 好 的 
选择 是 服务 器 硬盘 组 成 RAID 10 卷 。 通 常 应 该 使 用 带 有 电池 保护 单 
元 的 RAID 控 制 器 ， 并 且 设 置 写 缓 存 为 WriteBack 和 策略。 这样 一 个 配 
置 对 大 部 分 工作 负载 都 可 以 运行 良好 。 

固态 盘 相 对 比较 小 并 且 昂 贵 ， 但 是 随机 IO 非常 快 。 一 般 分 为 两 
类 : SSD 和 PCIe 设 备 。 广 泛 地 来 说 ，SSD 更 便宜 ， 更 慢 ， 但 缺少 可 
靠 性 验证 。 需 要 对 SSD 做 RAID 以 提升 可 靠 性 ， 但 是 大 多 数 硬件 























RAID 控 制 器 不 擅长 这 个 任务 S33。PCIe 设 备 很 昂贵 并 且 有 容量 限 
制 ， 但 是 非常 快 并 且 可 靠 ， 而 且 不 需要 RAID。 


固态 存储 设备 可 以 很 大 地 提升 服务 器 整体 性 能 。 有 时 候 一 个 不 算 郧 
贵 的 SSD， 可 以 帮助 解决 经 常 在 传统 硬盘 上 遇 到 的 特定 工作 负载 的 问 
题 ， 如 复制 。 如 果真 的 需要 很 强 的 性 能 ， 应 该 使 用 PCIe 设 备 。 增 加 高 速 
IO 设备 会 把 服务 器 的 性 能 瓶颈 转移 到 CPU， 有 时 也 会 转移 到 网 络 。 








MySQL 和 InnoDB 并 不 能 完全 发 挥 高 端 固态 存储 设备 的 性 能 ， 并 且 
在 某 些 场景 下 操作 系统 也 不 能 发 挥 。 但 是 提升 依然 很 明显 。Percona 
Server 对 固态 存储 做 了 很 多 改进 ， 并 且 很 多 改进 在 5.6 发 布 时 已 经 进入 了 
MySQL 主 干 代 码 。 





对 操作 系统 而 言 ， 只 有 很 少 的 一 些 重要 配置 需要 关注 ， 大 部 分 是 关 
于 存储 、 网 络 和 虚拟 内 存 管 理 的 。 如 果 像 大 部 分 MySQL 用 户 一 样 使 用 
GNU/Linux， 建 议 采 用 XFS 文件 系统 ， 并 且 为 服务 器 的 页 面 交 换 倾 回 率 
(swapiness) 和 硬盘 队列 调度 器 设置 恰当 的 值 。 有 一 些 网 络 参数 需要 改 
变 ， 可 能 还 有 一 些 其 他 的 地 方 ( 例 如 禁用 SELinux)〉 需 要 调 优 ， 但 是 前 
面 说 的 那些 改动 的 优先 级 应 该 更 高 一 些 。 





(1) 普通 PC Server 也 能 配 到 192GB 内 存 。 一 一 译 者 注 

(2) 网 络 吞 吐 也 是 一 种 WO。 一 一 译 者 注 

(3) 超 线程 技术 。 一 一 译 者 注 

(和 然而， 程序 可 能 依赖 大 量 在 操作 系统 内 存 中 缓存 的 数据 ， 对 程序 来 说 ， 概 念 上 属于 “在 


磁盘 上 ”的 数据 。 例 如 ，MyISAM 就 是 这 么 做 的 ， 它 把 数据 文件 放 在 磁盘 上 ， 并 通过 操作 系统 组 
存 磁 盘 上 的 数据 ， 使 其 访问 速度 更 快 。 


(5) 正确 的 数字 是 11% 而 不 是 10%。10% 的 未 命中 率 对 应 90% 的 命中 率 ， 所 以 你 需要 用 10GB 









































除 以 90%， 就 是 11.111GB。 
(6) 有 趣 的 是 ， 有 些 人 故意 买 更 大 容量 的 磁盘 ， 然 后 只 使 用 20% 一 30% 的 容量 。 这 增加 了 数 
据 局 部 性 和 减少 寻 道 时 间 ， 有 时 可 以 证 明 值得 它们 高 的 价格 。 
(7) 5.6 也 可 以 按 库 做 多 线程 复制 。 一 一 译 者 注 


(8) 有 些 公 司 声称 ， 他 们 抛弃 过 去 主轴 《机 械 ) 的 匿 绊 ， 从 一 个 干净 的 石板 开始 。 温 和 的 怀 
疑 是 有 道理 的 ; 解决 RDBMS 的 挑战 是 不 容易 的 。 


Q ”这 是 一 种 简化 ， 但 细节 在 这 里 并 不 重要 。 如 果 你 喜欢 ， 可 以 阅读 维基 百科 上 的 更 多 信 
Eo 

(10) 但 这 不 是 全 部 。 我 们 在 基准 测试 后 检查 了 驱动 器 ， 并 且 发 现 两 块 SSD 坏 盘 ， 有 一 块 不 
一 致 。 

(11) 意思 就 是 内 存放 不 下 要 缓存 的 数据 时 ， 换 出 到 Flashcache 上 ，Flashache 的 闪存 设备 可 以 
帮助 继续 缓存 ， 而 不 会 立刻 落 到 磁盘 。 一 一 译 者 注 

(12) 分 区 (看 第 7 章 ) 是 另 一 个 好 办 法 ， 因 为 它 通常 把 文件 分 成 多 份 ， 你 可 以 放 在 不 同 的 磁 
盘 上 。 但 是 ， 相 对 于 分 区 ，RAID 对 于 很 大 数据 是 一 个 更 简单 的 解决 方案 。 这 不 需要 你 手动 进行 
负载 平衡 或 者 在 负载 分 布 发 生变 化 时 进行 干预 ， 并 且 可 以 提供 元 余 ， 而 你 不 能 把 分 区 文件 放 在 
不 同 的 磁盘 。 

(13) 两 个 很 好 的 RAID 学 习 资 源 是 维基 百科 上 的 文章 Chttp://en.wikipedia.org/wiki/RAID ) 和 
AC&NC 教 程 http:/www.acnc.com/04_00.html。 

(14) 因为 读 取 并 不 需要 写 校 验 位 。 一 一 译 者 注 

(15) 意思 是 损失 一 块 盘 ， 读 取 的 时 候 本 来 可 以 从 相互 镜像 的 两 块 盘 中 同时 读 ， 少 了 一 块 盘 
就 只 能 从 男 一 块 镜像 盘 上 去 读 了 。 一 一 译 者 注 

(16) 尤其 是 SSD 盘 ， 同 时 损坏 的 可 能 性 是 比较 大 的 。 一 一 译 者 注 

(17) 例如 一 份 数据 的 两 个 镜像 就 在 这 两 个 盘 上 。 一 一 译 者 注 

(18) 就 是 每 个 服务 器 上 的 数据 都 会 被 业务 使 用 ， 没 有 机 器 作为 备用 的 。 一 一 译 者 注 

(19) 就 是 先 做 五 个 两 块 盘 的 RAID 1， 然 后 再 把 五 个 镜像 对 做 成 RAID 0， 形 成 RAID 10. 
一 一 译 者 注 

(20) 就 是 做 五 个 两 块 盘 的 RAID 1， 然 后 交 给 操作 系统 使 用 。 一 一 译 者 注 

(21) 有 些 RAID 卡 不 支持 直接 做 RAID 10， 只 能 做 成 几 组 RAID 1， 然 后 由 操作 系统 LVM 再 
RAID 0， 最 终 形成 RAID 10。 一 一 译 者 注 

22) 可 以 缓冲 随机 LO 部 分 合并 为 顺序 W/O。 一 一 译 者 注 

(23) 因为 没有 充分 地 合并 MO 。 一 -一 译 者 注 

(24) 有 几 种 技术 ， 包 括 电容 器 和 闪存 存储 ， 但 这 里 我 们 都 归结 到 BBU 这 一 类 。。 
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剖 新 到 了 硬盘 上 的 缓存 ， 这 个 缓存 是 没有 电池 的 ， 所 以 掉 电 会 丢失 数 





(25) ”就 是 fsync 只 
据 。 一 一 译 者 注 

(26) 基于 网 络 的 SAN 管 理 控制 台 坚 持 所 有 硬盘 驱动 器 是 健康 的 一 一 直到 我 们 要 求 管理 员 按 
Shift+F5 来 禁用 他 的 浏览 器 缓存 并 强制 刷新 控制 台 ! 

(27) 复制 不 算 实时 跨 数据 中 心 操作 ， 它 不 是 实时 的 ， 并 且 通 常 把 数据 复制 到 一 个 远程 位 置 
有 助 于 提升 数据 安全 性 ( 容 灾 ) 。 我 们 下 一 章 会 更 多 有 宪 新 这 个 内 容 。 

(28) 内 存 交 换 有 时 称 为 页 面 交 换 。 从 技术 上 来 说 ， 它 们 是 不 同 的 东西 ， 但 是 人 们 通常 把 它 
们 作为 同义词 。 

(29) 我 们 本 书展 示 的 iostat 的 例子 为 了 印刷 被 稍微 重 排 了 : 我 们 减少 了 小 数位 来 避免 换行 。 
我 们 是 在 GNU/Linux 上 展示 例子 。 其 他 操作 系统 输出 可 能 不 完全 一 样 。 

(30) 另 一 种 计算 并 发 的 方式 是 通过 平均 队列 大 小 、 服 务 时 间 ， 以 及 平均 等 待 时 间 : 
(avuqu_sz*svctm) /await. 

(31) 如 果 你 做 这 个 计算 ， 会 得 到 大 约 10， 因 为 为 了 格式 化 我 们 已 经 取 整 了 iostat 的 输出 。 相 
信 我 们 ， 确 实 是 9.6。 

(32) ”在 书 的 第 三 版 中 ， 我 们 混淆 了 “总 是 很 忙 ” 和 “完全 饱和 ”。。 总 是 在 做 事 的 硬盘 并 不 总 是 
达到 极限 ， 因 为 它们 可 能 也 能 支持 一 些 并 发 。 

(33) 有 些 RAID 控 制 器 对 SSD 支 持 很 差 ， 做 了 RAID 性 能 下 降 。 一 一 译 者 注 










































































































































































第 10 章 复制 


MySQL 内 建 的 复制 功能 是 构建 基于 MySQL 的 大 规模 、 高 性 能 应 用 
的 基础 ， 这 类 应 用 使 用 所 请 的 “水 平 扩展 ”的 架构 。 我 们 可 以 通过 为 服务 
器 配置 一 个 或 多 个 备 库 由 的 方式 来 进行 数据 同步 。 复 制 功 能 不 仅 有 利于 
构建 融 性 能 的 应 用 ， 同 时 也 是 高 可 用 性 、 可 扩展 性 、 灾 难 恢 复 、 备 份 以 
及 数据 仓库 等 工作 的 基础 。 事 实 上 ， 可 扩展 性 和 蜗 可 用 性 通常 是 相关 联 
的 话题 ， 我 们 会 在 接 下 来 的 三 章 详 细 阐 述 。 





本 章 将 阐述 所 有 与 复制 相关 的 内 容 ， 首 先 简 要 介绍 复制 如 何 工作 ， 
然后 讨论 基本 的 复制 服务 搭建 ， 包 括 与 复制 相关 的 配置 以 及 如 何 管 理 和 
优化 复制 服务 器 。 虽 然 本 书 的 主题 是 高 性 能 ， 但 对 于 复制 来 说 ， 我 们 同 
样 需 要 关注 其 准确 性 和 可 靠 性 ， 因 此 我 们 也 会 讲述 复制 在 什么 情况 下 会 
失败 ， 以 及 如 何 使 其 更 好 地 工作 。 





10.1 复制 概述 


复制 解决 的 基本 问题 是 让 一 全 服务 器 的 数据 与 其 他 服务 器 保持 同 
步 。 一 台 主 库 的 数据 可 以 同步 到 多 台 备 库 上 ， 备 库 本 里 也 可 以 被 配置 成 
另外 一 全 服务 器 的 主 库 。 主 库 和 备 库 之 间 可 以 有 多 种 不 同 的 组 合 方式 。 








MySQL 文 持 两 种 复制 方式 : 基于 行 的 复制 和 基于 语句 的 复制 。 基 
于 语句 的 复制 (也 称 为 逻辑 复制 ) 早 在 MySQL ”3.23 版 本 中 就 存在 ， 而 
基于 行 的 复制 方式 在 5.1 版 本 中 才 被 加 进来 。 这 两 种 方式 都 是 通过 在 主 
库 上 记录 二 进 制 日 志 钮 、 在 备 库 重 放 日 志 的 方式 来 实现 异步 的 数据 复 
制 。 这 意味 着 ， 在 同一 时 间 点 备 库 上 的 数据 可 能 与 主 库存 在 不 一 致 ， 并 
且 无 法 保证 主 备 之 间 的 延迟 。 一 些 大 的 语句 可 能 导致 备 库 产 生 几 秒 、 几 
分 钟 甚至 几 个 小 时 的 延迟 。 














MySQL 复 制 大 部 分 是 向 后 兼容 的 ， 新 版 本 的 服务 器 可 以 作为 老 版 
本 服务 器 的 备 库 ， 但 反 过 来 ， 将 老 版 本 作为 新 版 本 服务 器 的 备 库 通常 是 
不 可 行 的 ， 因 为 它 可 能 无 法 解析 新 版 本 所 采用 的 新 的 特性 或 语法 ， 另 外 
所 使 用 的 二 进 制 文件 的 格式 也 可 能 不 相同 。 例 如 ， 不 能 从 MySQL 5.1 复 
制 到 MySQL 4.0。 在 进行 大 的 版 本 升级 前 ， 例 如 从 4.1 升 级 到 5.0， 或 从 
5.1 升 级 到 5.5， 最 好 先 对 复制 的 设置 进行 测试 。 但 对 于 小 版 本 号 升级 ， 
如 从 5.1.51 升 级 到 5.1.58， 则 通常 是 兼容 的 。 通 过 阅读 每 次 版 本 更 新 的 
ChangeLog 可 以 找到 不 同 版 本 间 做 了 什么 修改 。 





复制 通常 不 会 增加 主 库 的 开销 ， 主 要 是 局 用 二 进 制 日 志 带 来 的 开 
销 ， 但 出 于 备份 或 及 时 从 月 尝 中 恢复 的 目的 ， 这 点 开销 也 是 必要 的 。 除 
此 之 外 ， 每 个 备 库 也 会 对 主 库 增 加 一 些 负载 〈 例 如 网 络 MO 开 销 ) ， 尤 





其 当 备 库 请 求 从 主 库 读 取 旧 的 二 进 制 日 志文 件 时 ， 可 能 会 造成 更 高 的 
IO 开销 。 另 外 锁 竞 争 也 可 能 阻碍 事务 的 提交 。 最 后 ， 如 果 是 从 一 个 高 
厨 吐 量 〈 例 如 5000 或 更 高 的 TPS) 的 主 库 上 复制 到 多 个 备 库 ， 唤 醒 多 个 
复制 线程 发 送 事件 的 开销 将 会 累加 。 











通过 复制 可 以 将 读 操作 指向 备 库 来 获得 更 好 的 读 扩 展 ， 但 对 于 写 操 
作 ， 除 非 设计 得 当 ， 人 否则 并 不 适合 通过 复制 来 扩展 写 操 作 。 在 一 主 库 多 
备 库 的 架构 中 ， 写 操作 会 被 执行 多 次 ， 这 时 候 整 个 系统 的 性 能 取决 于 写 
入 最 慢 的 那 部 分 。 








当 使 用 一 主 库 多 备 库 的 架构 时 ， 可 能 会 造成 一 些 浪费 ， 因 为 本 质 上 
它 会 复制 大 量 不 必要 的 重复 数据 。 例 如 ， 对 于 一 台 主 库 和 10 台 备 库 ， 会 
有 11 份 数据 拷贝 ， 并且 这 11 台 服务 占 的 缓存 中 存储 了 大 部 分 相同 的 数 
据 。 这 和 在 服务 器 上 有 11 路 RAID 1 类 似 。 这 不 是 一 种 经 济 的 硬件 使 用 方 
式 ， 但 这 种 复制 架构 却 很 常见 ， 本 章 我 们 将 讨论 解决 这 个 问题 的 方法 。 


10.1.1 复制 解决 的 问题 


下 和 面 是 复制 比较 常见 的 用 途 : 


MySQL 复 制 通常 不 会 对 带宽 造成 很 大 的 压力 ， 但 在 5.1 版 本 引 
入 的 基于 行 的 复制 会 比 传 统 的 基于 语句 的 复制 模式 的 带宽 压力 更 
大 。 你 可 以 随意 地 停止 或 开始 复制 ， 并 在 不 同 的 地 理 位 置 来 分 布 数 
据 备 份 ， 例 如 不 同 的 数据 中 心 。 即 使 在 不 稳定 的 网 络 环境 下 ， 远 程 
复制 也 可 以 工作 。 但 如 果 为 了 保持 很 低 的 复制 延迟 ， 最 好 有 一 个 稳 


定 的 、 低 延迟 连接 。 
负载 均衡 


通过 MySQL 复 制 可 以 将 读 操 作 分 布 到 多 个 服务 器 上 ， 实 现 对 
该 密集 型 应 用 的 优化 ， 并 且 实 现 很 方便 ， 通 过 简单 的 代码 修改 就 能 
实现 基本 的 负载 均衡 。 对 于 小 规模 的 应 用 ， 可 以 简单 地 对 机 器 名 做 
硬 编 码 或 使 用 DNS 轮 询 《将 一 个 机 器 名 指 癌 多 个 卫 地 址 ) 。 当 然 也 
可 以 使 用 更 复杂 的 方法 ， 例 如 网 络 负载 均衡 这 一 类 的 标准 负载 均衡 
解决 方案 ， 能 够 很 好 地 将 负载 分 配 到 不 同 的 MySQL 服 务 嚣 上。 
Linux 虚 拟 服 务 器 (Linux Virtual Server, LVS) 也 能 够 很 好 地 工 
作 ， 第 11 章 将 详细 地 讨论 负载 均衡 。 


备份 








对 于 备份 来 说 ， 复 制 是 一 项 很 有 意义 的 技术 补充 ， 但 复制 既 不 
是 备份 也 不 能 够 取代 备份 。 


高 可 用 性 和 故障 切换 


复制 能 够 帮助 应 用 程序 避免 MySQL 单 点 失败 ， 一 个 包含 复制 
的 设计 良好 的 故障 切换 系统 能 够 显著 地 缩短 宕 机 时 间 ， 我 们 将 在 第 
12 章 讨论 故障 切换 。 


MySQL 升 级 测试 


这 种 做 法 比较 普 衣 ， 使 用 一 个 更 高 版 本 的 MySQL 作 为 备 库 ， 
保证 在 升级 全 部 实例 前 ， 查 询 能 够 在 备 库 按照 预期 执行 。 








10.1.2 ”复制 如 何 工 作 


在 详细 介绍 如 何 设置 复制 之 前 ， 让 我 们 先 看 看 MySQL 实 际 上 是 如 
何 复制 数据 的 。 总 的 来 说 ， 复 制 有 三 个 步骤 : 
1. 在 主 库 上 把 数据 更 改 记 录 到 二 进 制 日 志 (Binary Log) 中 (这 些 记 
录 被 称 为 二 进 制 日 志 事 件 ) 。 
2. 备 库 将 主 库 上 的 日 志 复 制 到 上 自己 的 中 继 日 志 (Relay Log) 中 。 
3. 备 库 读 取 中 继 日 志 中 的 事件 ， 将 其 重 放 到 备 库 数据 之 上 。 
以 上 只 是 概述 ， 实 际 上 每 一 步 都 很 复杂 ， 图 10-1 更 详细 地 描述 了 复 
制 的 细节 。 

















图 10-1: MySQL 复 制 如 何 工 作 





第 一 步 是 在 主 库 上 记录 二 进 制 日 志 《 稍 后 介绍 如 何 设置 ) 。 在 每 次 
准备 提交 事务 完成 数据 更 新 前 ， 主 库 将 数据 更 新 的 事件 记录 到 二 进 制 日 
志 中 。MySQL 会 按 事务 提交 的 顺 友 而 非 每 条 语句 的 执行 顺序 来 记录 二 
进 制 日 志 。 在 记录 二 进 制 日 志 后 ， 主 库 会 告诉 存储 引擎 可 以 提交 事务 
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下 一 步 ， 备 库 将 主 库 的 二 进 制 日 志 复制 到 其 本 地 的 中 继 日 志 中 。 首 
先 ， 备 库 会 启动 一 个 工作 线程 ， 称 为 /O 线 程 ，I1/O 线 程 跟 主 库 建 立 一 个 
普通 的 客户 端 连 接 ， 然 后 在 主 库 上 启动 一 个 特殊 的 二 进 制 转 储 Cbinlog 
dump) 线程 〈 该 线程 没有 对 应 的 SQL 命令 ) ， 这 个 二 进 制 转 储 线程 会 读 
取 主 库 上 二 进 制 日 志 中 的 事件 。 它 不 会 对 事件 进行 轮 询 。 如 果 该 线程 追 
赶 上 了 主 库 ， 它 将 进入 睡眠 状态 ， 直 到 主 库 发 送信 号 量 通知 其 有 新 的 事 
件 产生 时 才 会 被 唤醒 ， 备 库 IO 线 程 会 将 接收 到 的 事件 记录 到 中 继 日 志 
中 。 





| 


SD MySQL 4.0 之 前 的 复制 与 之 后 的 版 本 相 比 改变 很 大 ， 例 如 MySQL 最 初 的 复制 功能 












































没有 使 用 中 继 日 志 ， 所 以 复制 只 用 到 了 两 个 线程 ， 而 不 是 现在 的 三 个 线程 。 目 前 大 部 分 人 都 是 
使 用 的 最 新 版 本 ， 因 此 在 本 章 我 们 不 会 去 讨论 关于 老 版 本 复制 的 更 多 细 贡 。 


























备 库 的 SQL 线程 执行 最 后 一 步 ， 该 线程 从 中 继 日 志 中 读 取 事 件 并 在 
备 库 执行 ， 从 而 实现 备 库 数据 的 更 新 。 当 SQL 线程 退 赶 上 IO 线程 时 ， 
中 继 日 志 通 常 已 经 在 系统 缓存 中 ， 所 以 中 继 日 志 的 开销 很 低 。SQL 线 程 
执行 的 事件 也 可 以 通过 配置 选项 来 决定 是 否 写 入 其 自己 的 二 进 制 日 志 
中 ， 它 对 于 我 们 稍 后 提 到 的 场景 非常 有 用 。 














图 10-1 显 示 了 在 备 库 有 两 个 运行 的 线程 ， 在 主 库 上 也 有 一 个 运行 的 
线程 : 和 其 他 普通 连接 一 样 ， 由 备 库 发 起 的 连接 ， 在 主 库 上 同样 拥有 一 
个 线程 。 





这 种 复制 架构 实现 了 获取 事件 和 重 放 事件 的 解 簿 ， 人 允许 这 两 个 过 程 
异步 进行 。 也 就 是 说 MO 线程 能 够 独立 于 SQL 线程 之 外 工作 。 但 这 种 架 
构 也 限制 了 复制 的 过 程 ， 其 中 最 重要 的 一 点 是 在 主 库 上 并 发 运行 的 碍 询 
在 备 库 只 能 串 行 化 执行 ， 因 为 只 有 一 个 SQL 线 程 来 重 放 中 继 日 志 中 的 事 
件 。 后 面 我 们 将 会 看 到 ， 这 是 很 多 工作 负载 的 性 能 瓶颈 所 在 。 昌 然 有 一 


些 针对 该 问题 的 解决 方案 ， 但 大 多 数 用 户 仍 然 受制 于 单线 程 。 


10.2 ”配置 复制 


为 MySQL 服 务 器 配置 复制 非常 简单 。 但 由 于 场景 不 同 ， 基 本 的 步 
又 还 是 有 所 差异 。 最 基本 的 场景 是 新 安装 的 主 库 和 备 库 ， 总 的 来 说 分 为 
以 下 几 步 : 











1. 在 每 台 鸟 服务 器 上 创建 复制 账号 。 
2. 配置 主 库 和 备 库 。 
3. 通知 备 库 连 接 到 主 库 并 从 主 库 复制 数据 。 





这 里 我 们 假定 大 部 分 配置 采用 默认 值 即 可 ， 在 主 库 和 备 库 都 是 全 新 
安装 并 且 拥 有 同样 的 数据 《默认 MySQL 数 据 库 ) 时 这 样 的 假设 是 合理 
的 。 接 下 来 我 们 将 展示 如 何 一 步 步 配置 复制 : 假设 有 服务 
器 server1 (IP 地 址 192.168.0.1) 和 服务 器 server2 (PEHE 
192.168.0.2) ， 我 们 将 解释 如 何 给 一 个 已 经 运行 的 服务 器 配置 备 库 ， 并 
探讨 推荐 的 复制 配置 。 


10.2.1 创建 复制 账号 


MySQL 会 赋予 一 些 特 殊 的 权限 给 复制 线程 。 在 备 库 运 行 的 MO 线程 
会 建立 一 个 到 主 库 的 TCP/IP 连 接 ， 这 意味 着 必须 在 主 库 创建 一 个 用 户 ， 
并 赋予 其 合适 的 权限 。 备 库 WO 线 程 以 该 用 户 名 连接 到 主 库 并 读 取 其 二 
进 制 日 志 。 通 过 如 下 语句 创建 用 户 账号 : 





mysql> GRANT REPLICATION SLAVE, REPLICATION CLIENT ON *.* 


-> TO repl1@'192.168.0.%' IDENTIFIED BY 'p4ssword', ; 


我 们 在 主 库 和 备 库 都 创建 该 账号 。 注 意 我 们 把 这 个 账户 限制 在 本 地 
网 络 ， 因 为 这 是 一 个 特权 账号 《尽管 该 账号 无 法 执行 select 或 修改 数 
据 ， 但 仍然 能 从 二 进 制 日 志 中 获得 一 些 数据 ) 。 


E j; 复制 账户 事实 上 只 需要 有 主 库 上 的 REPLICATION SLAVE 权 限 ， 并 不 一 定 需 要 每 一 
端 服务 器 都 有 REPLICATION CLIENT 权限 ， 那 为 什么 我 们 要 把 这 两 种 权限 给 主 / 备 库 都 赋予 


呢 ? 这 有 两 个 原因 : 









































1. 用 来 监控 和 管理 复制 的 账号 需要 REPLICATION CLIENT 权 限 ， 并 
且 针 对 这 两 种 目的 使 用 同一 个 账号 更 加 容易 《而 不 是 为 某 个 目的 单 
独创 建 一 个 账号 ) 。 

2. 如 果 在 主 库 上 建立 了 账号 ， 然 后 从 主 库 将 数据 元 隆 到 备 库 上 时 ， 备 
库 也 就 设置 好 了 一 一 变 成 主 库 所 需要 的 配置 。 这 样 后 续 有 需要 可 以 
方便 地 交换 主 备 库 的 角色 。 


10.2.2 ”配置 主 库 和 备 库 


下 一 步 需 要 在 主 库 上 开局 一 些 设置 ， 假 设 主 库 是 服务 器 server1， 
需要 打开 二 进 制 日 志 并 指定 一 个 独一无二 的 服务 器 ID (server ID) ， 在 
主 库 的 my.cnf 文 件 中 增加 或 修改 如 下 内 容 : 


log_bin = mysql-bin 


server_id = 10 


实际 取 值 由 你 决定 ， 这 里 只 是 为 了 简单 起 见 ， 当 然 也 可 以 设置 更 多 


需要 的 配置 。 


必须 明确 地 指定 一 个 唯一 的 服务 器 ID， 默 认 服 务 器 ID 通常 为 1 (这 
和 版 本 相关 ， 一 些 MySQL 版 本 根本 不 允许 使 用 这 个 值 ) 。 使 用 默认 值 
可 能 会 导致 和 其 他 服务 器 的 ID 冲突 ， 因 此 这 里 我 们 选择 10 来 作为 服务 器 
ID。 一 种 通用 的 做 法 是 使 用 服务 器 IP 地 址 的 末 8 位 ， 但 要 保证 它 是 不 变 
且 唯 一 的 《〈 例 如， 服务器 都 在 一 个 子 网 里 ) 。 最 好 选择 一 些 有 意义 的 约 
定 并 遵循 。 


如 采 之 前 没有 在 MySQL 的 配置 文件 中 指定 log-bin 选 项 ， 就 需要 重新 
启动 MySQL。 为 了 确认 二 进 制 日 志文 件 是 否 已 经 在 主 库 上 创建 ， 使 
用 SHOW MASTER STATUS 命令 ， 检 碍 输出 是 否 与 如 下 的 一 致 。MySQL 会 
为 文件 名 增加 一 些 数字 ， 所 以 这 里 看 到 的 文件 名 和 你 定义 的 会 有 点 不 一 
样 。 





mysql> SHOW MASTER STATUS; 


+------------------+----------+--------------+------------------+ 


+------------------+----------+--------------+------------------+ 


1 row in set (0.00 sec) 


备 库 上 也 需要 在 my.cnf 中 增加 类 似 的 配置 ， 并 且 同 样 需要 重 局 服务 


log_bin = mysql-bin 

server_id = 2 

relay_log = /var/lib/mysql/mysgql-relay-bin| Chapter 1 
read_only = 工 


从 技术 上 来 说 ， 这 些 选 项 并 不 总 十 必要 的 。 其 中 一 些 选项 我 们 只 是 
显 式 地 列 出 了 默认 值 。 事 实 上 只 有 server_id 是 必需 的 。 这 里 我 们 同样 


也 使 用 了 log_bin， 并 赋予 了 一 个 明确 的 名 字 。 默 认 情 况 下 ， 它 是 根据 
机 絮 名 来 命名 的 ， 但 如 果 机 器 名 变化 了 可 能 会 导致 问题 。 为 了 简便 起 
见 ， 我 们 将 主 库 和 备 库 上 的 log-bin 设 置 为 相同 的 值 。 当 然 如 果 你 愿意 
的 话 ， 也 可 以 设置 成 别 的 值 。 


为 外 我 们 还 增加 了 两 个 配置 选项 :relay_log 指 定 中 继 日 志 的 位 
置 和 命名 ) 和 log_slave_updates《〈 人 允许 备 库 将 其 重 放 的 事件 也 记录 到 
目 身 的 二 进 制 日 关中 ) ， 后 一 个 选项 会 给 备 库 增 加 额外 的 工作 ， 但 正如 
后 面 将 会 看 到 的 ， 我 们 有 理由 为 每 个 备 库 设 置 该 选项 。 


有 时 候 只 开局 了 二 进 制 日 志 ， 但 却 没有 开局 log_slave_updates， 
可 能 会 碰 到 一 些 奇怪 的 现象 ， 例 如 ， 当 配置 错误 时 可 能 会 导致 备 库 数 据 
被 修改 。 如 宁可 能 的 话 ， 最 好 使 用 read_only 配 置 选项 ， 该 选项 会 阻止 
任何 没有 特权 权限 的 线程 修改 数据 (所 以 最 好 不 要 给 予 用 户 超出 需要 的 
权限 ) 。 但 read_only 选 项 常常 不 是 很 实用 ， 特 别 是 对 于 那些 需要 在 备 
库 建 表 的 应 用 。 


— 


ES a 设置 master_port 或 master_host 这 些 选 项 ， 这 是 老 的 配 



































置 方式 ， 己 经 被 废弃 ， 它 只 会 导致 问题 ， 不 会 有 任何 好 处 。 


10.2.3 ”启动 复制 


下 一 步 是 告诉 备 库 如 何 连接 到 主 库 并 重 放 其 二 进 制 日 志 。 这 一 步 不 
要 通过 修改 my.cnf 来 配置 ， 而 是 使 用 CHANGE MASTER T0 语 句 ， ， 
全 符 代 了 my.cnf 中 相应 的 设置 ， 并 且 允 许 以 后 指 癌 别 的 主 库 时 无 须 重 
备 库 。 下 面 是 开始 复制 的 基本 命令 : 











-> MASTER_USER='repl', 


CHANGE MASTER TO MASTER_HOST='server1', 


-> MASTER_PASSWORD='p4ssword', 


-> MASTER_LOG_FILE='mysql-bin.000001', 


-> MASTER_LOG_POS=0; 


MASTER_L0G_P0S 参 数 被 设置 为 0， 因 为 要 从 日 志 的 开头 读 起 。 当 执 
行 完 这 条 语句 后 ， 可 以 通过 SHOW SLAVE STATUS 语句 来 检查 复制 是 否 正 
确 执 行 。 


mysql> SHOW SLAVE STATUS\G 


大 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 1 


Slave_I0_State: 
Master_Host: 
Master_User: 
Master_Port: 

Connect_Retry: 
Master_Log_ File: 
Read_Master_Log_Pos: 
Relay_Log_File: 
Relay_Log_Pos: 
Relay_Master_Log_File: 
Slave_I0O_ Running: 


Slave_SQL_Running: 


Seconds _ Behind Master: 


Slave_10 State, Slave 10 Running#llSlave SQL_Runningix 








row 


server1 
repl 
3306 
60 
mysql-bin.000001 
4 
mysql-relay-bin.000001 
4 
mysql-bin.000001 
No 
No 

„omitted... 


NULL 


火炎 大火 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


三 列 








显示 当前 备 库 复制 尚未 运行 。 聪 明 的 读者 可 能 已 经 注意 到 日 志 的 开头 是 





4 而 不 是 0， 这 是 因为 0 其 实 不 是 日 志 真 正 开始 的 位 置 ， 它 仅仅 意味 着 “在 





日 志文 件 头 ”，MySQL 知 道 第 
运行 下 面 的 命令 开始 复制 : 


mysql> START SLAVE; 





执行 该 命令 没有 显示 


mysql> SHOW SLAVE STATUS\G 


火炎 炎炎 火炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 


Slave_IO_ State: 
Master_Host: 
Master_User: 
Master_Port: 

Connect_Retry: 
Master_Log_File: 
Read_Master_Log_Pos: 
Relay_Log_File: 
Relay_Log_Pos: 
Relay_Master_Log_ File: 
Slave_IO Running: 


Slave_SQL_Running: 


Seconds _ Behind Master: 


个 事件 从 文件 的 第 4 位 多 开始 读 。 


昔 误 ， 现 在 我 们 再 用 SHOW SLAVE STATUS 


火炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


row 
Waiting for master to send event 
server1 

repl 

3306 

60 

mysql-bin.000001 

164 

mysql-relay-bin.000001 

164 

mysql-bin.000001 

Yes 

Yes 


..omitted... 


从 输出 可 以 看 出 MO 线 程 和 SQL 线程 都 已 经 开始 运 
ÍT, Seconds Behind Master 的 值 也 不 再 为 NULL 〈 稍 后 再 解释 
Seconds_Behind_Master 的 含义 ) 。LIO 线 程 正 在 等 待 从 主 库 传 递 过 来 的 
事件 ， 这 意味 着 IO 线程 已 经 读 取 了 主 库 所 有 的 事件 。 日 志 位 置 发 生 了 
变化 ， 表 明 已 经 从 主 库 获取 和 执行 了 一 些 事件 (你 的 结果 可 能 会 有 所 不 
同 ) 。 如 果 在 主 库 上 做 一 些 数据 更 新 ， 就 会 看 到 备 库 的 文件 或 者 日 志 位 
置 都 可 能 会 增加 。 备 库 中 的 数据 同样 会 随 之 更 新 。 








我 们 还 可 以 从 线程 列表 中 看 到 复制 线程 。 在 主 库 上 可 以 看 到 由 备 库 
IO 线程 癌 主 库 发 起 的 连接 。 


mysql> SHOW PROCESSLIST\G 
FOI CII ICI III I J. poy RII IR IR I I TA A A I Kk 
Id: 55 
User: repl 
Host: replicai.webcluster_1:54813 
db: NULL 
Command: Binlog Dump 
Time: 610237 
State: Has sent all binlog to slave; waiting for binlog to 


Info: NULL 
同样 ， 在 备 库 也 可 以 看 到 两 个 线程 ， 一 个 是 IO 线程 ， 一 个 是 SQL 
线程 : 


mysql> SHOW PROCESSLIST\G 


类 类 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 1 row 类 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


Id: 1 


User: system user 
Host: 
db: NULL 
Command: Connect 
Time: 611116 
State: Waiting for master to send event 
Info: NULL 
FORO ICICI ICI IOI IO III 9. pow FOI IO IOI I IOI A Kk 
Id: 2 
User: system user 
Host: 
db: NULL 
Command: Connect 
Time: 33 
State: Has read all relay log; waiting for the slave I/O th 


Info: NULL 


这 些 简单 的 输出 来 自 一 台 已 经 运行 了 一 段 时 间 的 服务 器 ， 所 以 IO 
线程 在 主 库 和 备 库 上 的 Time 列 的 值 较 大 。SQL 线 程 在 备 库 已 经 空 朵 了 33 
秒 。 这 意味 着 33 秒 内 没有 重 放任 何事 件 。 





这 些 线 程 总 是 运行 在 “system user 账号 下 ， 其 他 列 的 值 则 不 相同 。 
例如 ， 当 SQL 线程 回放 事件 时 ，lnfo 列 可 能 显示 正在 执行 的 查询 。 














rs) feats 
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Chttp://mysqlsandbox.net) 能 够 帮助 你 从 一 个 之 前 下 载 的 安装 包 中 一 次 性 安装 。 通 过 如 下 命令 只 
需要 几 次 按键 和 大 约 15 秒 ， 就 可 以 运行 一 个 主 库 和 两 个 备 库 : 

















$ ./set_replication.pl /path/to/mysql-tarball.tar.gz 


10.2.4 MATERA aT oa hi 


前 面 的 设置 都 是 假定 主 备 库 均 为 刚刚 安装 好 且 都 是 默认 的 数据 ， 也 
就 是 说 两 台 服 务 器 上 数据 相同 ， 并 且 知 道 当 前 主 库 的 二 进 制 日 志 。 这 不 
征 典 型 的 案例 。 大 多数 情况 下 有 一 个 已 经 运行 了 一 段 时 间 的 主 库 ， 然 后 
用 一 台新 安装 的 备 库 与 之 同步 ， 此 时 这 全 备 库 还 没有 数据 。 


有 几 种 办 法 来 初始 化 备 库 或 者 从 其 他 服务 器 克隆 数据 到 备 库 。 包 括 
从 主 库 复制 数据 、 从 为 外 一 台 备 库 殉 隆 数 据 ， 以 及 使 用 最 近 的 一 次 备份 
来 局 动 备 库 ， 需 要 有 三 个 条 件 来 让 主 库 和 备 库 保持 同步 : 








。 在 某 个 时 间 点 的 主 库 的 数据 快照 。 

e 主 库 当 前 的 二 进 制 日 志文 件 ， 和 获得 数据 快照 时 在 该 二 进 制 日 志文 
件 中 的 偏 移 量 ， 我 们 把 这 两 个 值 称 为 日 志文 件 坐 标 dog file 
coordinates) 。 通 过 这 两 个 值 可 以 确定 二 进 制 日 志 的 位 置 。 可 以 通 
过 SHOW MASTER STATUS 命令 来 获取 这 些 值 。 

。 从 快照 时 间 到 现在 的 二 进 制 日 志 。 


下 面 是 一 些 从 别 的 服务 器 死 隆 备 库 的 方法 : 


使 用 冷 备份 





最 基本 的 方法 是 关闭 主 库 ， 把 数据 复制 到 备 库 (高 效 复制 文件 
的 方法 参考 附录 C) 。 重 局 主 库 后 ， 会 使 用 一 个 新 的 二 进 制 日 志文 
件 ， 我 们 在 备 库 通过 执行 CHANGE MASTER TO 指向 这 个 文件 的 起 始 
处 。 这 个 方法 的 缺点 很 明显 : 在 复制 数据 时 需要 关闭 主 库 。 











18 FA ASD 


如 果 仅 使 用 了 MyISAM 表 ， 可 以 在 主 库 运 行 时 使 
用 mysqlhotcopy 或 rsync 来 复制 数据 ， 更 多 细节 参阅 第 15 章 。 





使 用 mysqldump 


如 果 只 包含 InnoDB 表 ， 那 么 可 以 使 用 以 下 命令 来 转 储 主 库 数 
据 并 将 其 加 载 到 备 库 ， 然 后 设置 相应 的 二 进 制 日 志 坐 标 : 


$ mysqldump --single-transaction --all-databases --master-dat 


| mysql --host=server2 


选项 --single-transaction 使 得 转 储 的 数据 为 事务 开始 前 的 数据 。 
如 果 使 用 的 是 非 事务 型 表 ， 可 以 使 用 --lock-all-tables 选 项 来 获得 所 
有 表 的 一 致 性 转 储 。 


使 用 快照 或 备份 


只 要 知道 对 应 的 二 进 制 日 志 坐 标 ， 就 可 以 使 用 主 库 的 快照 或 者 
备份 来 初始 化 备 库 《如 有 果 使 用 备份 ， 需 要 确保 从 备份 的 时 间 点 开始 
的 主 库 二 进 制 日 志 都 要 存在 ) 。 只 需要 把 备份 或 快照 恢复 到 备 库 ， 
然后 使 用 CHANGE MASTER T0 指 定 二 进 制 日 志 的 坐标 。 第 15 章 会 介绍 
更 多 的 细节 ， 也 可 以 使 用 LVM 人 快照 、SAN 快 照 、EBS 快 照 一 一 任何 
快照 都 可 以 。 








使 用 Percona Xtrabackup 





Percona 的 Xtrabackup 是 一 于 开源 的 热 备份 工具 ， 多 年 前 我 们 就 





介绍 过 。 它 能 够 在 备份 时 不 阻塞 服务 器 的 操作 ， 因 此 可 以 在 不 影响 
主 库 的 情况 下 设置 备 库 。 可 以 通过 克隆 主 库 或 另 一 个 已 存在 的 备 库 
的 方式 来 建立 备 库 。 


在 15 章 会 介绍 更 多 使 用 Percona Xtrabackup 的 细节 。 这 里 会 介绍 
一 些 相 关 的 功能 。 创 建 一 个 备份 〈 不 管 是 从 主 库 还 是 从 别 的 备 
库 ) ， 并 将 其 转 储 到 目标 机 器 ， 然 后 根据 备份 获得 正确 的 开始 复制 
的 位 置 。 





如 果 是 从 主 库 获 得 备份 ， 可 以 从 xtrabackup binlog pos innodb 文 
件 中 获得 复制 开始 的 位 置 。 
如 果 是 从 男 外 的 备 库 获得 备份 ， 可 以 从 xtrabackup_slave_info 文 
件 中 获得 复制 开始 的 位 置 。 


另外 ， 在 第 15 章 提 到 的 InnoDB 热 备份 和 MySQL 企 业 版 的 备 
份 ， 也 是 比较 好 的 初始 化 备 库 方式 。 


使 用 另外 的 备 库 


可 以 使 用 任何 一 种 提 及 的 克隆 或 者 拷贝 技术 来 从 任意 一 人 台 备 库 
上 将 数据 克隆 到 男 外 一 台 服 务 器 。 但 是 如 果 使 用 的 是 mysqldump，- 
-master-data 选 项 束 会 不 起 作用 。 





此 外 ， 不 能 使 用 SHOW MASTER STATUS 来 获得 主 库 的 二 进 制 日 志 
坐标 ， 而 是 在 获取 快照 时 使 用 SHOW SLAVE STATUS 来 获取 备 库 在 主 
库 上 的 执行 位 置 。 





使 用 夯 外 的 备 库 进行 数据 克隆 最 大 的 缺点 是 ， 如 果 这 人 台 备 库 的 
数据 已 经 和 主 库 不 同步 ， 克 隆 得 到 的 残 是 脏 数据 。 


oy 


一 人 | 不 要 使 用 OAD DATA FROM MASTER 或 者 LOAD TABLE FROM MASTER! 这 些 命令 过 时 、 


缓慢 ， 并 且 非 常 危 险 ， 并 且 只 适用 于 MyISAM 存 储 引 擎 。 














不 管 选 择 哪 种 技术 ， 都 要 能 熟练 运用 ， 要 记录 详细 的 文档 或 编写 脚 
本 。 因 为 可 能 不 止 一 次 需要 做 这 样 的 事情 。 甚 至 当 错 误 发 生 时 ， 也 需要 
能 够 处 理 。 


10.2.5 ”推荐 的 复制 配置 


有 许多 参数 来 控制 复制 ， 其 中 一 些 会 对 数据 安全 和 性 能 产生 影响 。 
稍 后 我 们 会 解释 何 种 规则 在 何 时 会 失效 。 本 小 节 推 荐 的 一 种 “安全 ”的 配 
置 ， 可 以 最 小 化 问题 发 生 的 概率 。 








在 主 库 上 二 进 制 日 志 最 重要 的 选项 是 sync_binlog: 


sync_binlog=1 





如 打开 局 该 选项 ，MySQL 每 次 在 提交 事 务 前 会 将 二 进 制 日 志 同 步 
到 磁盘 上 ， 保 证 在 服务 器 骨 尝 时 不 会 丢失 事件 。 如 果 禁 止 该 选项 ， 服 务 
融会 少 做 一 些 工 作 ， 但 二 进 制 日 志文 件 可 能 在 服务 器 裔 误 时 损坏 或 丢失 
信息 。 在 一 个 不 需要 作为 主 库 的 备 库 上 ， 该 选项 市 来 了 不 必要 的 开销 。 
它 只 适用 于 二 进 制 日 志 ， 而 非 中 继 日 志 。 


如 果 无 法 容忍 服务 器 月 尝 导 致 表 损 坏 ， 推 荐 使 用 ImnnoDB。 在 表 损 
WERKA, MyISAM 是 可 以 接受 的 ， 但 在 一 次 备 库 服 务 器 朋 溃 重 局 
后 ，MyISAM 表 可 能 已 经 处 于 不 一 致 状态 。 一 种 可 能 是 语句 没有 完全 应 
用 到 一 个 或 多 个 表 上 ， 那 么 即使 修复 了 表 ， 数 据 也 可 能 是 不 一 致 的 。 











如 果 使 用 mnoDB， 我 们 强烈 推荐 设置 如 下 选项 : 





innodb_flush_logs_at_trx_commit=1 # Flush every log write 
innodb_support_xa=1 # MySQL 5.0 and newer only 
innodb_safe_binlog # MySQL 4.1 only, roughly e 


# innodb_support_xa 


这 些 是 MySQL 5.0 及 最 新 版 本 中 的 默认 配置 ， 我 们 推荐 明确 指定 二 
进 制 日 志 的 名 字 ， 以 保证 二 进 制 日 志 名 在 所 有 服务 器 上 是 一 致 的 ， 避 免 
因为 服务 器 名 的 变化 导致 的 日 志文 件 名 变化 。 你 可 能 认为 以 服务 器 名 来 
命名 二 进 制 日 志 无 关 紧 要 ， 但 经 验 表 明 ， 当 在 服务 器 间 转 移 文 件 、 殉 隆 
新 的 备 库 、 转 储备 份 或 者 其 他 一 些 你 想象 不 到 的 场景 下 ， 可 能 会 导致 很 
多 问题 。 为 了 避免 这 些 问 题 ， 需 要 给 log_bin 选 项 指定 一 个 参数 。 可 以 
随意 地 给 一 个 绝对 路 径 ， 但 必须 明确 地 指定 基本 的 命名 《正如 本 章 之 前 
讨论 的 ) 。 


log_bin=/var/lib/mysgql/mysql-bin # Good; specifies a path an 


#log_bin # Bad; base name will be se 


在 备 库 上 ， 我 们 同样 推荐 开 司 如 下 配置 选项 ， 为 中 继 日 志 指 定 绝对 
路 径 : 


relay_log=/path/to/logs/relay-bin 
skip_slave_start 


read_only 


过 设置 relay_log 可 以 避免 中 继 日 志文 件 基 于 机 器 名 来 命名 ， 防 
eoo 能 在 主 库 发 生 的 问题 。 指 定 绝对 路 径 可 以 避免 多 个 
MySQL 版 本 中 存在 的 Bug， 这 些 Bug 可 能 会 导致 中 继 日 志 在 一 个 意料 外 











Nie Bl. skip_slave_startic M fe Ms PIER Fe Ea Aaa 
制 。 这 可 以 给 你 一 些 机 会 来 修复 可 能 发 生 的 问题 。 如 果 备 库 在 崩 演 后 目 
动情 动 并 且 处 于 不 一 致 的 状态 ， 惑 可 能 会 导致 更 多 的 损坏 ， 最 后 将 不 得 
不 把 所 有 数据 丢弃 ， 并 重新 开始 配置 备 库 。 


read_only 选 项 可 以 阻止 大 部 分 用 户 更 改 非 临时 表 ， 除 了 复制 SQL 
线程 和 其 他 拥有 超级 权限 的 用 户 之 外 ， 这 也 是 要 尽量 避免 给 正常 账号 授 
予 超级 权限 的 原因 之 一 。 


即使 开局 了 所 有 我 们 建议 的 选项 ， 备 库 仍 然 可 能 在 骨 溃 后 被 中 断 ， 
因为 master.info 和 中 继 日 志文 件 都 不 是 朋 演 安全 的 。 默 认 情 况 下 甚至 不 
会 刷新 到 磁盘 ， 直 到 MySQL 5.5 版 本 才 有 选项 来 控制 这 种 行为 。 如 果 正 
在 使 用 MySQL 5.5 并 且 不 介意 额外 的 fsync 0 导致 的 性 能 开销 ， 最 好 设 
置 以 下 选项 : 


sync_master_info = 工 
sync_relay_log ae | 
sync_relay_log_info = 1 


如 采 备 库 与 主 库 的 延迟 很 大 ， 备 库 的 MO 线程 可 能 会 写 很 多 中 继 日 
志文 件 ，SQL 线 程 在 重 放 完 一 个 中 继 日 志 中 的 事件 后 会 尽快 将 其 删除 
(通过 relay_log_purge 选 项 来 控制 ) 。 但 如 果 延 迟 非常 严重 ，LIO 线 程 
可 能 会 把 整个 磁盘 撑 满 。 解 决 办 法 是 配置 relay_log_space_1imit 变 
量 。 如 果 所 有 中 继 日 志 的 大 小 之 和 超过 这 个 值 ，L/O 线 程 会 停止 ， 等 竺 
SQL 线程 释放 磁盘 空间 。 








尽管 听 起 来 很 美好 ， 但 有 一 个 隐藏 的 问题 。 如 果 备 库 没 有 从 主 库 上 
获取 所 有 的 中 继 日 志 ， 这 些 日 志 可 能 在 主 库 骨 演 时 丢失 。 早 先 这 个 选项 





存在 一 些 Bug， 使 用 率 也 不 高 ， 所 以 用 到 这 个 选项 遇 到 Bug 的 风险 会 更 
局 。 除 非 磁 盘 空 间 真 的 非常 紧张 ， 否 则 最 好 让 中 继 日 志 使 用 其 需要 的 磁 
盘 空 间 ， 这 也 是 为 什么 我 们 没有 将 relay_log_space_limit 列 入 推荐 的 
配置 选项 的 原因 。 


10.3 ”复制 的 原理 


我 们 已 经 介绍 了 复制 的 一 些 基 本 概念 ， 接 下 来 要 更 深入 地 了 解 复 
制 。 让 我 们 看 看 复制 完 竟 是 如 何 工 作 的 ， 有 哪些 优点 和 弱点 ， 最 后 介绍 
一 些 更 高 级 的 复制 配置 选项 。 


10.3.1 基于 语句 的 复制 


在 MySQL 5.0 及 之 前 的 版 本 中 只 支持 基于 语句 的 复制 (也 称 为 逻辑 
复制 )， 这 在 数据 库 领 域 是 很 少见 的 。 基 于 语句 的 复制 模式 下 ， 主 库 会 
记录 那些 造成 数据 更 改 的 查询 ， 当 备 库 读 取 并 重 放 这 些 事件 时 ， 实 际 上 
只 是 把 主 库 上 执行 过 的 SQL 表 执行 一 珊 。 这 种 方式 既 有 好 处 ， 也 有 缺 
Re 




















最 明显 的 好 处 是 实现 相当 简单 。 理 论 上 讲 ， 简 单 地 记录 和 执行 这 些 
语句 ， 能 够 让 主 备 保持 同步 。 另 一 个 好 处 是 二 进 制 日 志 里 的 事件 更 加 紧 
次， 所 以 相对 而 言 ， 基 于 语句 的 模式 不 会 使 用 太 多 带宽 。 一 条 更 新 好 几 
兆 数据 的 语句 在 二 进 制 日 志 里 可 能 只 占 几 十 个 字 节 。 另 外 mysqlbinlog 工 
具 《〈 本 章 多 处 会 提 到 ) 是 使 用 基于 语句 的 日 志 的 最 佳 工具 。 














但 事实 上 基于 语句 的 方式 可 能 并 不 如 其 看 起 来 那么 便利 。 因 为 主 库 
上 的 数据 更 新 除了 执行 的 语句 外 ， 可 能 还 依赖 于 其 他 因 系 。 例 如 ， 同 一 
条 SQL 在 主 库 和 备 库 上 执行 的 时 间 可 能 稍微 或 很 不 相同 ， 因 此 在 传输 的 
二 进 制 日 志 中 ， 除 了 碍 询 语句 ， 还 包括 了 一 些 元 数据 信息 ， 如 当前 的 时 
邮戳。 即便 如 此 ， 还 存在 着 一 些 无 法 被 正确 复制 的 SQL。 例 如 ， 使 











FACURRENT_USER () 函数 的 语句 。 存 储 过 程 和 触发 器 在 使 用 基于 语句 的 复 
制 模 式 时 也 可 能 存在 问题 。 


另外 一 个 问题 是 更 新 必须 是 串 行 的 。 这 需要 更 多 的 锁 一 一 有 时 候 要 
特别 关注 这 一 点 。 夯 外 不 是 所 有 的 存储 引擎 都 文 持 这 种 复制 模式 。 尽 管 
这 些 存储 引擎 是 包括 在 MySQL 5.5 及 之 前 版 本 中 发 行 的 。 

















可 以 在 MySQL 手 册 与 复制 相关 的 章节 中 找到 基于 语句 的 复制 存在 
的 限制 的 完整 列表 。 


10.3.2 ”基于 行 的 复制 


MySQL 5.1 开 始 文 持 基 于 行 的 复制 ， 这 种 方式 会 将 实际 数据 记录 在 
二 进 制 日 志 中 ， 跟 其 他 数据 库 的 实现 比较 相像 。 它 有 其 自身 的 一 些 优 点 
和 缺点 。 最 大 的 好 处 是 可 以 正确 地 复制 每 一 行 。 一 些 语句 可 以 被 更 加 有 
效 地 复制 。 


























aa 基于 行 的 复制 没有 向 后 兼容 性， 和 MySQL 5.1 一 起 发 布 的 mysqlbinlog 工 具 可 以 读 取 革 
于 行 的 复制 的 事件 格式 〔 它 对 人 是 不 可 读 的， 但 MySQL 可 以 解释 ) ， 但 是 早期 版 本 的 









































mysqlbinlog 无 法 识别 这 类 事件 ， 在 过 到 错误 时 会 退出 。 


由 于 无 须 重 放 更 新 主 库 数据 的 碍 询 ， 使 用 基于 行 的 复制 模式 能 够 更 
高 效 地 复制 数据 。 重 放 一 些 碍 询 的 代价 可 能 会 很 局。 例如 ， 下 面 有 一 个 
查询 将 数据 从 一 个 大 表 中 汇总 到 小 表 : 


mysql> INSERT INTO summary_table(coli1, col2, sum_col3) 


-> SELECT coli, col2, sum(col3) 


-> FROM enormous_table 


-> GROUP BY coli, col2; 


想象 一 下 ， 如 果 表 enormous_table 的 列 co11 和 co12 有 三 种 组 合 ， 这 
个 查询 可 能 在 源 表 上 扫描 多 次 ， 但 最 终 只 在 目标 表 上 产生 三 行 数据 。 但 
使 用 基于 行 的 复制 方式 ， 在 备 库 上 开销 会 小 很 多 。 这 种 情况 下 ， 基 于 行 
的 复制 模式 更 加 高 效 。 

















但 在 为 一 方面 ， 下 面 这 条 语句 使 用 基于 语句 的 复制 方式 代价 会 小 很 
多 : 


mysql> UPDATE enormous_table SET coli = 0; 


由 于 这 条 语句 做 了 全 表 更 新 ， 使 用 基于 行 的 复制 开销 会 很 大 ， 因 为 
每 一 行 的 数据 都 会 被 记录 到 二 进 制 日 志 中 ， 这 使 得 二 进 制 日 志 事 件 非常 
庞大 。 并 且 会 给 主 库 上 记录 日 志和 复制 增加 额外 的 负载 ， 更 慢 的 日 志 记 
录 则 会 降低 并 发 度 。 

















由 于 没有 哪 种 模式 对 所 有 情况 都 是 完美 的 ，MySQL 能 够 在 这 两 种 
复制 模式 间 动 态 切 换 。 默 认 情 况 下 使 用 的 是 基于 语句 的 复制 方式 ， 但 如 
果 友 现 语句 无 法 被 正确 地 复制 ， 残 切换 到 基于 行 的 复制 模式 。 还 可 以 根 
据 需要 来 设置 会 话 级 别 的 变量 binlog_format， 控 制 二 进 制 日 志 格 式 。 

















对 于 基于 行 的 复制 模式 ， 很 难 进行 时 间 点 恢复 ， 但 这 并 非 不 可 能 。 
稍 后 讲 到 的 日 志 服 务 器 对 此 会 有 帮助 。 


10.3.3 ”基于 行 或 基于 语句 : 哪 种 更 优 


我 们 已 经 讨论 了 这 两 种 复制 模式 的 优点 和 缺点 ， 那 么 在 实际 应 用 中 
哪 种 方式 更 优 呢 ? 


理论 上 基于 行 的 复制 模式 整体 上 更 优 ， 并 且 在 实际 应 用 中 也 适用 于 
大 多 数 场景 。 但 这 种 方式 太 新 了 以 至 于 没有 将 一 些 特殊 的 功能 加 入 到 其 
中 来 满足 数据 库 管理 员 的 操作 需求 。 因 此 一 些 人 直到 现在 还 没有 开始 使 
用 。 以 下 详细 地 痔 述 两 种 方式 的 优点 和 缺点 ， 以 帮助 你 决定 哪 种 方式 更 


合适 。 








基于 语句 的 复制 模式 的 优点 


当主 备 的 模式 不 同时 ， 风 辑 复制 能 够 在 多 种 情况 下 工作 。 例 
如 ， 在 主 备 上 的 表 的 定义 不 同 但 数据 类 型 相 兼 容 、 列 的 顺序 不 同等 
情况 。 这 样 就 很 容易 先 在 备 库 上 修改 schema， 人 然后 将 其 提升 为 主 
库 ， 减 少 停机 时 间 。 基 于 语句 的 复制 方式 一 般 允 许 更 灵活 的 操作 。 











基于 语句 的 方式 执行 复制 的 过 程 基本 上 就 是 执行 SQL 语句 。 这 
意味 着 所 有 在 服务 器 上 发 生 的 变更 都 以 一 种 容易 理解 的 方式 运行 。 
这 样 当 出 现 问题 时 可 以 很 好 地 去 定位 。 





基于 语句 的 复制 模式 的 缺点 


很 多 情况 下 通过 基于 语句 的 模式 无 法 正确 复制 ， 几 乎 每 一 个 安 
装 的 备 库 都 会 至 少 碰 到 一 次 。 事 实 上 对 于 存储 过 程 ， 触 发 器 以 及 其 
他 的 一 些 语句 的 复制 在 5.0 和 5.1 的 一 系列 版 本 中 存在 大 量 的 Bug。 这 
些 语句 的 复制 的 方式 已 经 被 修改 了 很 多 次 ， 以 使 其 更 好 地 工作 。 简 
单 地 说 : 如 果 正 在 使 用 触发 占 或 者 存储 过 程 ， 就 不 要 使 用 基于 语句 
的 复制 模式 ， 除 非 能 够 清楚 地 确定 不 会 磁 到 复制 问题 。 








基于 行 的 复制 模式 的 优点 





几乎 没有 基于 行 的 复制 模式 无 法 处 理 的 场景 。 对 于 所 有 的 SQL 
构造 、 触 发 器 、 存 储 过 程 等 都 能 正确 执行 。 只 是 当 你 试图 做 一 些 诸 
如 在 备 库 修 改 表 的 schema 这 样 的 事情 时 才 可 能 导致 复制 失败 。 





这 种 方式 同样 可 能 减少 锁 的 使 用 ， 因 为 它 并 不 要 求 这 种 强 串 行 
化 是 可 重复 的 。 





基于 行 的 复制 模式 会 记录 数据 变更 ， 因 此 在 二 进 制 日 志 中 记录 
的 都 是 实际 上 在 主 库 上 发 生 了 变化 的 数据 。 你 不 需要 查看 一 条 语句 
去 猜测 它 到 底 修 改 了 哪些 数据 。 在 茶 种 程度 上 ， 该 模式 能 够 更 加 清 
楚 地 知道 服务 器 上 发 生 了 哪些 更 改 ， 并 且 有 一 个 更 好 的 数据 变更 记 
录 。 男 外 在 一 些 情况 下 基于 行 的 二 进 制 日 志 还 会 记录 发 生 改 变 之 前 
的 数据 ， 因 此 这 可 能 有 利于 茶 些 数据 恢复 。 























在 很 多 情况 下 ， 由 于 无 须 像 基于 语句 的 复制 那样 需要 为 查询 建 
并 执行 计划 并 执行 查询 ， 因 此 基于 行 的 复制 占用 更 少 的 CPU。 





最 后 ， 在 茶 些 情况 下 ， 基 于 行 的 复制 能 够 帮助 更 快 地 找到 并 解 
决 数据 不 一 致 的 情况 。 举 个 例子 ， 如 果 是 使 用 基于 语句 的 复制 模 
式 ， 在 备 库 更 新 一 个 不 存在 的 记录 时 不 会 失败 ， 但 在 基于 行 的 复制 
模式 下 则 会 报错 并 停止 复制 。 





基于 行 的 复制 模式 的 缺点 





由 于 语句 并 没有 在 日 志 里 记录 ， 因 此 无 法 判断 执行 了 哪些 
SQL， 除 了 需要 知道 行 的 变化 外 ， 这 在 很 多 情况 下 也 很 重要 (这 可 
能 在 未 来 的 MySQL 版 本 中 被 修复 ) 。 











使 用 一 种 完全 不 同 的 方式 在 备 库 进行 数据 变更 一 一 而 不 是 执行 
SQL。 事 实 上 ， 执 行 基 于 行 的 变化 的 过 程 就 像 一 个 黑 盒 子 ， 你 无 法 
知道 服务 器 正在 做 什么 。 并 且 没 有 很 好 的 文档 和 解释 。 因 此 当 出 现 
问题 时 ， 可 能 很 难 找 到 问题 所 在 。 例 如 ， 若 备 库 使 用 一 个 效率 低下 
的 方式 去 寻找 行 记录 并 更 新 ， 你 无 法 观察 到 这 一 点 。 








如 果 有 多 层 的 复制 服务 器 ， 并 且 所 有 的 都 被 配置 成 基于 行 的 复 
制 模 式 ， 当 会 话 级 别 的 变量 eeb inlog_format 被 设置 成 STATEMENT 
时 ， 上 所 执行 的 语句 在 源 服务 器 上 被 记录 为 基于 语句 的 模式 ， 但 第 一 
层 的 备 库 可 能 将 其 记录 成 行 模式 ， 并 传递 给 其 他 层 的 备 库 。 也 惑 是 
说 你 期 望 的 基于 语句 的 日 志 在 复制 拓扑 中 将 会 被 切换 到 基于 行 的 模 
式 。 基 于 行 的 日 志 无 法 处 理 诸如 在 备 库 修改 表 的 schema 这 样 的 情 
况 ， 而 基于 语句 的 日 志 可 以 。 














在 茶 些 情 况 下 ， 例 如 找 不 到 要 修改 的 行 时 ， 基 于 行 的 复制 可 能 
会 导致 复制 停止 ， 而 基于 语句 的 复制 则 不 会 。 这 也 可 以 认为 是 基于 
行 的 复制 的 一 个 优点 。 该 行为 可 以 通过 slave_exec_mode 来 进行 配 
E 











这 些 缺 点 正在 被 慢 慢 解决 ， 但 直到 写作 本 书 时 ， 它 们 在 大 多 数 
生产 环境 中 依然 存在 。 


10.3.4 复制 文件 


让 我 们 来 看 看 复制 会 使 用 到 的 一 些 文件 。 前 面 已 经 介绍 了 二 进 制 日 
志文 件 和 中 继 日 志文 件 ， 其 实 还 有 其 他 的 文件 会 被 用 到 。 不 同 版 本 的 
MySQL 默 认 情 况 下 可 能 将 这 些 文件 放 到 不 同 的 目录 里 ， 大 多 取决 具体 


的 配置 选项 。 可 能 在 data 目 录 或 者 包含 服务 器 .pid 文 件 的 目录 下 (对 于 类 
UNIX 系 统 可 能 是 War/run/mysqld) 。 它 们 的 详细 介绍 如 下 。 


mysql—bin. index 


当 在 服务 左上 开局 二 进 制 日 志 时 ， 同 时 会 生成 一 个 和 二 进 制 日 
志 同 名 的 但 以 .index 作 为 后 缀 的 文件 ， 该 文件 用 于 记录 磁盘 上 的 二 
进 制 日 志文 件 。 这 里 的 “index” 并 不 是 指 表 的 索引 ， 而 是 说 这 个 文件 
的 每 一 行 包 含 了 二 进 制 文件 的 文件 名 。 








你 可 能 认为 这 个 文件 是 多 余 的 ， 可 以 被 删除 〈 毕 竟 MySQL 可 
以 在 磁盘 上 找到 它 需 要 的 文件 ) 。 事 实 上 并 非 如 此 ，MySQL 依 赖 
于 这 个 文件 ， 除 非 在 这 个 文件 里 有 记录 ， 否 则 MySQL 识 别 不 了 二 
进 制 日 志文 件 。 





mysql—-relay—bin-index 





这 个 文件 是 中 继 日 志 的 索引 文件 ， 和 mysql-bin.index 的 作用 类 
ve 


master. info 


这 个 文件 用 于 保存 备 库 连接 到 主 库 所 需要 的 信息 ， 格 式 为 纯 文 
本 (每 行 一 个 值 )， 不 同 的 MySQL 版 本 ， 其 记录 的 信息 也 可 和 
同 。 此 文件 不 能 删除 ， 否 则 备 库 在 重 局 后 无 法 连接 到 主 库 。 这 个 文 
件 以 文本 的 方式 记录 了 复制 用 户 的 密码 ， 所 以 要 注意 此 文件 的 权限 
控制 。 





relay-log. info 





这 个 文件 包含 了 当前 备 库 复 制 的 二 进 制 日 志和 中 继 日 志 坐 标 
(例如 ， 备 库 复制 在 主 库 上 的 位 置 ) ， 同 样 也 不 要 删除 这 个 文件 ， 
否则 在 备 库 重 局 后 将 无 法 获知 从 哪个 位 置 开 始 复制 ， 可 能 会 导致 重 
放 已 经 执行 过 的 语句 。 











使 用 这 些 文件 来 记录 MySQL 复 制 和 日 志 状态 是 一 种 非常 粗糙 的 方 
式 。 更 不 笠 的 是 ， 它 们 不 是 同步 写 的 。 如 果 服 务 器 断 电 并 且 文 件数 据 没 
有 被 刷新 到 磁盘 ， 在 重启 服务 器 后 ， 文 件 中 记录 的 数据 可 能 是 错误 的 。 
正如 之 前 提 到 的 ， 这 些 问题 在 MySQL 5.5 里 做 了 改进 。 





以 .index 作 为 后 绥 的 文件 也 与 设置 expire_logs_days 存 在 交互 ， 该 
参数 定义 了 MySQL 清 理 过 期 日 志 的 方式 ， 如 果 文 件 mysql-bin.index 在 磁 
盘 上 不 存在 ， 在 某 些 MySQL 版 本 上 自动 清理 就 会 不 起 作用 ， 甚 至 执 
行 PURGE MASTER L0GS 语 句 也 没有 用 。 这 个 问题 的 解决 方法 通常 是 使 用 
MySQL 服 务 器 管理 二 进 制 日 志 ， 这 样 就 不 会 产生 误解 (这 意味 着 不 应 
该 使 用 rm 来 自己 清理 日 志 ) 








最 好 能 显 式 地 执行 一 些 日 志清 理 策略 ， 比 如 设置 expire_logs_days 
参数 或 者 其 他 方式 ， 否 则 MySQL 的 二 进 制 日 志 可 能 会 将 磁盘 撑 满 。 当 
做 这 些 事情 时 ， 还 需要 考虑 到 备份 策略 。 


10.3.5 ”发 送 复 制 事 件 到 其 他 备 库 


log_slave_updates 选 项 可 以 让 备 库 变 成 其 他 服务 器 的 主 库 。 在 设 
置 该 选项 后 ，MySQL 会 将 其 执行 过 的 事件 记录 到 它 自己 的 二 进 制 日 志 
中 。 这 样 它 的 备 库 就 可 以 从 其 日 志 中 检索 并 执行 事件 。 图 10-2 阐 述 了 这 


一 过 程 。 
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图 10-2: 将 复制 事件 传递 到 更 多 的 备 库 





在 这 种 场景 下 ， 主 库 将 数据 更 新 事件 写 入 二 进 制 日 志 ， 第 一 个 备 库 
提取 并 执行 这 个 事件 。 这 时 候 一 个 事件 的 生命 周期 应 该 已 经 结束 了 ， 但 
由 于 设置 了 log_slave_updates， 备 库 会 将 这 个 事件 写 到 它 自 己 的 二 进 
制 日 志 中 。 这 样 第 二 个 备 库 就 可 以 将 事件 提取 到 它 的 中 继 日 志 中 并 执 
行 。 这 意味 着 作为 源 服务 器 的 主 库 可 以 将 其 数据 变化 传递 给 没有 与 其 直 
接 相 连 的 备 库 上 。 默 认 情 况 下 这 个 选项 是 被 打开 的 ， 这 样 在 连接 到 备 库 
时 就 不 需要 重启 服务 器 。 








当 第 一 个 备 库 将 从 主 库 获得 的 事件 写 入 到 其 二 进 制 日 志 中 时 ， 这 个 
事件 在 备 库 二 进 制 日 志 中 的 位 置 与 其 在 主 库 二 进 制 日 志 中 的 位 置 几乎 肯 
定 征 不 相同 的 ， 可 能 在 不 同 的 日 志文 件 或 文件 内 不 同 的 位 置 。 这 意味 着 
你 不 能 假定 所 有 拥有 同一 逻辑 复 制 点 的 服务 器 拥有 相同 的 日 志 坐 标 。 稍 
后 我 们 会 提 到 ， 这 种 情况 会 使 菜 些 任务 更 加 复杂 ， 例 如 ， 修 改 一 个 备 库 
的 主 库 或 将 备 库 提升 为 主 库 。 








除非 你 已 经 注意 到 要 给 每 个 服务 器 分 配 一 个 唯一 的 服务 器 ID， 否 则 
按照 这 种 方式 配置 备 库 会 导致 一 些 奇怪 的 错误 ， 甚 至 还 会 导致 复制 停 
止 。 一 个 更 常见 的 问题 是 ， 为 什么 要 指定 服务 器 ID， 难 道 MySQL 在 不 

















知道 复制 命令 来 源 的 情况 下 不 能 执行 吗 ? 为 什么 MYSQL 要 在 意 服务 器 

ID 是 全 局 唯一 的 。 问 题 的 答案 在 于 MySQL 在 复制 过 程 中 如 何 防止 无 限 

循环 。 当 复制 SQL 线 程 读 中 继 日 志 时 ， 会 丢 茎 事件 中 记录 的 服务 器 ID 和 
该 服务 器 本 喘 ID 相 同 的 事件 ， 从 而 打破 了 复制 过 程 中 的 无 限 循 环 。 在 茶 
些 复制 拓扑 结构 下 打破 无 限 循环 非常 重要 ， 例 如 主 - 主 复制 结构 乌 。 











| 如 果 在 设置 复制 的 时 候 碰 到 问题 ， 服 务 器 ID 应 该 是 需要 检查 的 因素 之 一 。 当 然 只 检 











A@@server_ id 是 不 够 的 ， 它 有 一 个 默认 值 ， 除 非 在 my cnf 文 件 或 通过 SET 命令 明确 指定 它 的 
值 ， 复 制 才 会 工作 。 如 果 使 用 SET 命令 ， 确 保 同时 也 更 新 了 配置 文件 ， 否 则 SET 命令 的 设 定 可 能 
在 服务 器 重启 后 丢失 ， 


10.3.6 ”复制 过 滤器 


复制 过 滤 选 项 允许 你 仅 复制 服务 器 上 一 部 分 数据 ， 不 过 这 可 能 没有 
想象 中 那么 好 用 。 有 两 种 复制 过 滤 方 式 : 在 主 库 上 过 滤 记 录 到 二 进 制 日 
志 中 的 事件 ， 以 及 在 备 库 上 过 滤 记 录 到 中 继 日 志 的 事件 。 图 10-3 显 示 了 
这 两 种 类 型 。 

















SOL 线程 









=> on do_db 
replicate_do_ table 
replicate_iqnore_db 
replicate_iqnare_table 
replicate_rewnte_db 
replicate_wild_do_table 


replicate_wild_ignore_table 















图 10-3: 复制 过 滤 选 项 


使 用 选项 binlog do_ db 和 binlog_ignore_db 来 控制 过 滤 ， 稍 后 我 们 
会 解释 为 什么 通常 不 需要 开启 它们 ， 除 非 你 乐于 向 老板 解释 为 什么 数据 
会 永久 丢失 并 且 无 法 恢复 。 





在 备 库 上 ， 可 以 通过 设置 replicate # 选 项 ， 在 从 中 继 日 志 中 读 取 
事件 时 进行 过 滤 。 你 可 以 复制 或 忽略 一 个 或 多 个 数据 库 ， 把 一 个 数据 库 
重 写 到 另外 一 个 数据 库 ， 或 使 用 类 似 LIKE 的 模式 复制 或 忽略 数据 库 
表 。 


要 理解 这 些 选项 ， 最 重要 是 弄 清楚 *_do_db 和 *_ignore_db 在 主 库 和 
备 库 上 的 意义 ， 它 们 可 能 不 会 按照 你 所 设想 的 那样 工作 。 你 可 能 会 认为 
它 会 根据 目标 数据 库 名 过 滤 ， 但 实际 上 过 滤 的 是 当前 的 默认 数据 库 信 。 
也 就 是 说 ， 如 果 在 主 库 上 执行 如 下 语句 : 





mysql> USE test; 
mysql> DELETE FROM sakila. film; 


* _do_ db 和 #_ignore_db 都 会 在 数据 库 test 上 过 滤 DELETE 语 句 ， 而 不 
是 在 saki la 上 。 这 通常 不 是 想 要 的 结果 ， 可 能 会 导致 执行 或 忽略 错误 的 
语句 。*_do_db 和 *_ignore_db 有 一 些 作 用 ,但 非常 有 限 。 必 须要 很 小 心 
地 去 使 用 这 些 参数 ， 否 则 很 容易 造成 主 备 不 同步 或 复制 出 错 。 





m 


-t inlog_ do_ db 和 binlog_ignore_db 不 仅 可 能 会 破坏 复制 ， 还 可 能 会 导致 从 某 个 时 





























间 点 的 备份 进行 数据 恢复 时 失败 。 在 大 多 数 情 况 下 都 不 应 该 使 用 这 些 参 数 。 本 章 稍 后 部 分 我 们 
展示 了 一 些 使 用 blackhole 表 进行 复制 过 滤 的 方法 。 























总 地 来 说 ， 复 制 过 涯 随时 可 能 会 发 生 问题 。 举 个 例子 ， 假 如 要 阻止 
赋 权 限 操作 传递 给 备 库 ， 这 种 需求 是 很 普遍 的 。 《提醒 一 下 ， 这 样 做 可 


是 错误 的 ， 有 别 的 更 好 的 方式 来 达成 真正 的 目的 ) 。 过 滤 系 统 表 的 复 
制 当然 能 够 阻止 GRANT 语 句 的 复制 ， 但 同样 也 会 阻止 事件 和 定时 任务 的 
复制 。 正 是 这 些 不 可 预知 的 后 果 ， 使 用 复制 过 滤 要 非常 慎重 。 更 好 的 办 
法 是 阻止 一 些 特殊 的 语句 被 复制 ， 通 常 是 设置 SQL_L0G_BIN=0， 虽 然 这 
种 方法 也 有 它 的 缺点 。 总 地 来 说 ， 除 非 万 不 得 已 ， 不 要 使 用 复制 过 滤 ， 
因为 它 很 容易 中 断 复制 并 导致 问题 ， 在 需要 灾难 恢复 时 也 会 带 来 极 大 的 
不 方便 。 




















过 小 选 项 在 MySQL 文 档 里 介绍 得 很 详细 ， 因 此 本 书 不 再 重复 更 多 
的 细节 。 


10.4 复制 拓扑 


可 以 在 任意 个 主 库 和 备 库 之 间 建 立 复 制 ， 只 有 一 个 限制 : 每 一 个 备 
库 只 能 有 一 个 主 库 。 有 很 多 复 洒 的 拓扑 结构 ， 但 即使 是 最 简单 的 也 可 能 
会 非常 灵活 。 一 种 拓扑 可 以 有 多 种 用 途 。 关 于 使 用 复制 的 不 同方 式 可 以 
很 轻易 地 写 一 本 书 。 





我 们 已 经 讨论 了 如 何 为 主 库 设置 一 个 备 亩 ， 本 市 我 们 讨论 其 他 比较 
普 近 的 拓扑 结构 以 及 它们 的 优 缺 点 。 记 住 下 面 的 基本 原则 : 





。 一 个 MySQL 备 库 实例 只 能 有 一 个 主 库 。 

。 每 个 备 库 必 须 有 一 个 唯一 的 服务 器 ID。 

一 个 主 库 可 以 有 多 个 备 库 (或 者 相应 的 ， 一 个 备 库 可 以 有 多 个 兄弟 
备 库 ) 。 

如 有 果 打 开 了 log_slave_updates 选 项 ， 一 个 备 库 可 以 把 其 主 库 上 的 
数据 变化 传播 到 其 他 备 库 。 


10.4.1 一 主 库 多 备 库 


除了 我 们 已 经 所 过 的 两 从 服务 器 的 主 备 结构 外 ， 这 是 最 简单 的 拓扑 
结构 。 事 实 上 一 主 多 备 的 结构 和 基本 配置 差不多 简单 ， 因 为 备 库 之 间 根 
本 没有 交互 四， 它们 仅仅 是 连接 到 同一 个 主 库 上 。 图 10-4 显 示 了 这 种 结 
构 。 

















在 有 少量 写 和 大 量 读 时 ， 这 种 配置 是 非常 有 用 的 。 可 以 把 读 分 挫 到 





多 个 备 库 上 ， 下 到 备 库 给 主 库 造 成 了 太 大 的 负担 ， 或 者 主 备 之 间 的 融 宽 
成 为 瓶颈 为 止 。 你 可 以 按照 之 前 介绍 的 方法 一 次 性 设置 多 个 备 库 ， 或 者 
根据 需要 增加 备 库 。 
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图 10-4: 一 主 多 备 结构 





尽管 这 是 非常 简单 的 拓扑 结构 ， 但 它 非常 灵活 ， 能 满足 多 种 需求 。 
下 面 是 它 的 一 些 用 途 ; 


。 为 不 同 的 角色 使 用 不 同 的 备 库 《例如 添加 不 同 的 索引 或 使 用 不 同 的 
存储 引擎 ) 。 

。 把 一 台 备 库 当 作 待 用 的 主 库 ， 除 了 复制 没有 其 他 数据 传输 。 

。 将 一 台 备 库 放 到 远程 数据 中 心 ， 用 作 灾 难 恢复 。 

。 延迟 一 个 或 多 个 备 库 ， 以 备 灾难 恢复 。 

。 使 用 其 中 一 个 备 库 ， 作 为 备份 、 培 训 、 开 发 或 者 测试 使 用 服务 器 。 


这 种 结构 流行 的 原因 是 它 避 免 了 很 多 其 他 拓扑 结构 的 复杂 性 。 例 
如 : 可 以 方便 地 比较 不 同 备 库 重 放 的 事件 在 主 库 二 进 制 日 志 中 的 位 置 。 
换 名 话说， 如 果 在 同一 个 逻辑 点 停止 所 有 备 库 的 复制 ， 它 们 正在 读 取 的 
是 主 库 上 同一 个 日 志文 件 的 相同 物理 位 置 。 这 是 个 很 好 的 特性 ， 可 以 减 
轻 管理 员 许 多 工作 ， 例 如 把 备 库 提升 为 主 库 。 





这 种 特性 只 存在 于 兄弟 备 库 之 间 。 在 没有 直接 的 主 备 或 者 兄弟 关系 





的 服务 器 上 去 比较 日 志文 件 的 位 置 要 复杂 很 多 。 之 后 我 们 会 提 到 的 许多 
拓扑 结构 ， 例 如 树 形 复制 或 分 布 式 主 库 ， 很 难 计算 出 复制 的 事件 的 逻辑 
顺序 。 





10.4.2 ”主动 -主动 模式 下 的 主 - 主 复制 








主 - 主 复制 〈 也 叫 双 主 复制 或 双 同 复制 ) 包含 两 侣 服务 器 ， 每 一 个 
都 被 配置 成 对 方 的 主 库 和 备 库 ， 换 句 话 说 ， 它 们 是 一 对 主 库 。 图 10-5 显 
示 了 该 结构 。 











$i 主 库 











图 10-5: 主 - 主 复制 





主动 -主动 模式 下 主 - 主 复制 有 一 些 应 用 场景 ， 但 通常 用 于 特殊 的 目 
的 。 一 个 可 能 的 应 用 场景 是 两 个 处 于 不 同 地理 位 置 的 办 公 室 ， 并 且 都 需 
要 一 份 可 写 的 数据 找 贝 。 


这 种 配置 最 大 的 问题 是 如 何 解决 冲突 ， 两 个 可 写 的 互 主 服务 器 导致 
的 问题 非常 多 。 这 通常 发 生 在 两 台 服 务 器 同时 修改 一 行 记 录 ， 或 同时 在 
两 台 服 务 器 上 向 一 个 包含 AUTO_INCREMENT 列 的 表 里 插 入 数据 锯 ，。 








MySQL 人 不 文 持 多 主 库 复制 


多 主 库 复制 (multisource replication) 特 指 一 个 备 库 有 多 个 
主 库 。 不 管 之 前 你 知道 什么 ， 但 MySQL (和 其 他 数据 库 产 品 不 一 样 ) 


现在 不 支持 如 图 10-6 所 示 的 结构 ， 本 章 稍 后 我 们 会 向 你 介绍 如 何 模仿 
多 主 库 复制 。 

















图 10-6: MySQL 不 支持 多 主 库 复制 





MySQL 5.0 增 加 了 一 些 特性 ， 使 得 这 种 配置 稍微 安全 了 点 ， 就 是 设 
置 auto increment increment 和 auto increment offset。 通 过 这 两 个 


选项 可 以 让 MySQL 自 动 为 INSERT 语 句 选 择 不 互相 冲突 的 值 。 然 而 允许 





问 两 台 主 库 上 写 入 仍然 很 危险 。 在 两 台 机 器 上 根据 不 同 的 顺序 更 新 ， 可 
aun A 


能 会 导致 数据 不 同步 。 例 如 ， 一 个 只 有 一 列 的 表 ， 只 有 一 行 值 为 1 的 记 
录 ， 假 设 同 时 执行 下 面 两 条 语句 : 





。 在 第 一 台 主 库 上 : 

mysql> UPDATE tbl SET col=col + 1; 
. fe BE fe Eb: 

mysql> UPDATE tbl SET col=col + 2; 


那么 结果 呢 ? 一 台 服 务 器 上 值 为 4， 另 一 台 的 值 为 93， 并 且 没 有 报告 
任何 复制 错误 。 





数据 不 同步 还 仅仅 是 开始 。 当 正常 的 复制 发 生 错 误 停 止 了 ， 但 应 用 
仍 在 同时 疝 两 台 服 务 器 写 入 数据 ， 这 时 候 会 发 生 什 么 呢 ? 你 不 能 简单 地 
把 数据 从 一 人 台 服 务 器 复制 到 另外 一 合 ， 因 为 这 两 台 机 器 上 需要 复制 的 数 
据 都 可 能 发 生 了 变化 。 解 决 这 个 问题 将 会 非常 困难 。 





如 果 足 够 仔细 地 配置 这 种 架构 ， 例 如 很 好 地 划分 数据 和 权限 ， 并 且 
你 很 清楚 自己 在 做 什么 ， 可 以 避免 一 些 问 题名 。 然 而 这 通常 很 难 做 好 ， 
并 且 有 更 好 的 办 法 来 实现 你 所 需要 的 。 





总 地 来 说 ， 多 许 回 两 个 服务 器 上 写 入 所 带 来 的 麻烦 远 远 大 于 其 带 来 
的 好 处 ， 但 下 一 节 描 述 的 主动 -被 动 模式 则 会 非常 有 用 。 


10.4.3 ”主动 -被 动 模式 下 的 主 - 主 复制 


这 是 前 面 描述 的 主 - 主 结构 的 变 体 ， 它 能 够 避免 我 们 之 前 讨论 的 问 
题 。 这 也 是 构建 容错 性 和 高 可 用 性 系统 的 非常 强大 的 方式 ， 主 要 区 别 在 
于 其 中 的 一 台 服 务 器 是 只 读 的 被 动 服务 器 ， 如 图 10-7 所 示 。 




















图 10-7: 主动 -被 动 模式 下 的 主 - 主 复制 





这 种 方式 使 得 反复 切换 主动 和 被 动 服 务 器 非常 方便 ， 因 为 服务 器 的 
配置 是 对 称 的 。 这 使 得 故障 转移 和 故障 恢复 很 容易 。 它 也 可 以 让 你 在 不 
关闭 服务 器 的 情况 下 执行 维护 、 优 化 表 、 升 级 操作 系统 或 者 应 用 程 
序 、 硬 件 等 ) 或 其 他 任务 。 





例如 ， 执 行 ALTER ”TABLE 操作 可 能 会 锁 住 整个 表 ， 阻 塞 对 表 的 谈 和 
写 ， 这 可 能 会 花费 很 长 时 间 并 导致 服务 中 断 。 然 而 在 主 - 主 配置 下， 可 
以 先 停止 主动 服务 器 上 的 备 库 复制 线程 (这 样 就 不 会 在 被 动 服务 器 上 执 
行 任何 更 新 ) ， 然 后 在 被 动 服务 器 上 执行 ALTER 操 作 ， 交 换 角 色 ， 最 后 
在 先前 的 主动 服务 器 上 00 启动 复制 线程 。 这 个 服务 器 将 会 读 取 中 继 日 
志 并 执行 相同 的 ALTER 语 句 。 这 可 能 花费 很 长 时 间 ， 但 不 要 紧 ， 因 为 该 
服务 器 没有 为 任何 活跃 查询 提供 服务 。 








主动 -被 动 模式 的 主 - 主 结构 能 够 帮助 回避 许多 MySQL 的 问题 和 限 
制 ， 此 外 还 有 一 些 工具 可 以 完成 这 种 类 型 的 操作 。 


让 我 们 看 看 如 何 配置 主 - 主 服务 器 对 ， 在 两 全 服务 器 上 执行 如 下 设 
置 后 ， 会 使 其 拥有 对 称 的 设置 : 


1. 确保 两 台 服 务 器 上 有 相同 的 数据 。 

2. 局 用 二 进 制 日 志 ， 选 择 唯 一 的 服务 器 ID， 并 创建 复制 账号 。 

3. 局 用 备 库 更 新 的 日 志 记录 ， 后 面 将 会 看 到 ， 这 是 故障 转移 和 故障 恢 
复 的 关键 。 

4. 把 被 动 服务 器 配置 成 只 读 ， 防 止 可 能 与 主动 服务 器 上 的 更 新 产生 冲 
突 ， 这 一 点 是 可 选 的 。 

5. Ja SNES ARS at MySQL £ i 

6. 将 每 个 主 库 设置 为 对 方 的 备 库 ， 使 用 新 创建 的 二 进 制 日 志 开 始 工 
作 。 


让 我 们 看 看 主动 服务 器 上 更 新 时 会 发 生 什 么 事情 。 更 新 被 记录 到 二 
进 制 日 志 中 ， 通 过 复制 传递 给 被 动 服务 器 的 中 继 日 志 中 。 被 动 服务 器 执 
行 查询 并 将 其 记录 到 自己 的 二 进 制 日 志 中 【因为 开启 了 
log_slave_updates 选 项 ) 。 由 于 事件 的 服务 器 ID 与 主动 服务 器 的 相 





同 ， 因 此 主动 服务 器 将 忽略 这 些 事件 。 在 后 面 的 “修改 主 库 ? 可 了 解 更 多 
的 角色 切换 相关 内 容 。 


设置 主动 - 航 动 的 主 - 主 拓扑 结构 在 茶 种 意义 上 类 似 于 创建 一 个 热 备 
份 ， 但 是 可 以 使 用 这 个 “备份 ”来 提高 性 能 ， 例 如 ， 用 它 来 执行 读 操 作 、 
备份 、“ 离 线 ? 维 护 以 及 升级 等 。 真 正 的 热 备 份 做 不 了 这 些 事情 。 然 而 ， 
你 不 会 获得 比 单 台 服务 需 更 好 的 写 性 能 〈 稍 后 会 提 到 ) 。 





当 我 们 讨论 使 用 复制 的 场景 和 用 途 时 ， 还 会 提 到 这 种 复制 方式 。 它 
古 一 种 非常 常见 并 且 重 要 的 拓扑 结构 。 


10.44 拥有 备 库 的 主 - 主 结构 


另外 一 种 相关 的 配置 是 为 每 个 主 库 增加 一 个 备 库 ， 如 图 10-8 所 示 。 
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图 10-8: 拥有 备 库 的 主 - 主 结构 
这 种 配置 的 优点 是 增加 了 元 余 ， 对 于 不 同 地 理 位 壮 的 复制 拓扑 ， 能 
够 消除 站 氮 单 点 失 效 的 问题 。 你 也 可 以 像 平 种 一 样 ， 将 读 理 询 分 配 到 备 
库 上 。 


如 果 在 本 地 为 了 故障 转移 使 用 主 - 主 结构 ， 这 种 配置 同样 有 用 。 当 
主 库 失 效 时 ， 用 备 库 来 代替 主 库 还 是 可 行 的 ， 虽 然 这 有 点 复杂 。 同 样 也 
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10.4.5 ”环形 复制 


如 图 10-9 所 示 ， 双 主 结构 实际 上 是 环形 结构 的 一 种 特例 Q。 环 形 结 
构 可 以 有 三 个 或 更 多 的 主 库 。 每 个 服务 器 都 是 在 它 之 前 的 服务 器 的 备 
库 ， 是 在 它 之 后 的 服务 器 的 主 库 。 这 种 结构 也 称 为 环形 复制 〈circular 


replication) 。 











环形 结构 没有 双 主 结构 的 一 些 优点 ， 例 如 对 称 配 置 和 简单 的 故障 转 
移 ， 并 且 完 全 依赖 于 环 上 的 每 一 个 可 用 市 态 ， 这 大 大 增加 了 整个 系统 失 
效 的 几率 。 如 果 从 环 中 移 除 一 个 节 氮 ， 这 个 节点 发 起 的 事件 就 会 陷入 无 
限 循 环 : 它们 将 永远 绕 着 服务 嚣 链 循 环 。 因 为 唯一 可 以 根据 服务 器 ID 将 
其 过 滤 的 服务 器 是 创建 这 个 事件 的 服务 器 。 总 地 来 次 ， 环 形 结构 非常 脆 
弱 ， 应 该 尽量 避免 。 























图 10-9: 环形 复制 拓扑 


可 以 通过 为 每 个 市 点 增 加 备 库 的 方式 来 减少 环形 复制 的 风险 ， 如 图 
10-10 所 示 。 但 这 仅仅 防范 了 服务 器 失效 的 危险 ， 断 电 或 者 其 他 一 些 影 
啊 到 网 络 连 接 的 问题 都 可 能 破坏 整个 环 。 





























图 10-10: 拥有 备 库 的 环形 结构 
10.4.6 EHR. PRERUR EE 


我 们 之 前 提 到 当 备 库 足 够 多 时 ， 会 对 主 库 造 成 很 大 的 负载 。 每 个 备 
库 会 在 主 库 上 创建 一 个 线程 ， 并 执行 binlog dump 命 令 。 该 命令 会 读 取 二 
进 制 日 志文 件 中 的 数据 并 将 其 发 送 给 备 库 。 每 个 备 库 都 会 重复 这 样 的 工 
作 ， 它 们 不 会 共享 binlog dump 的 资源 。 


如 果 有 很 多 备 库 ， 并 且 有 大 的 事件 时 ， 例 如 一 次 很 大 的 LOAD DATA 
INFILE 操 作 ， 主 库 上 的 负载 会 显著 上 升 ， 甚 至 可 能 由 于 备 库 同 时 请 求 同 
样 的 事件 而 耗 尽 内 存 并 骨 溃 。 另 一 方面 ， 如 果 备 库 请 求 的 数据 不 在 文件 
系统 的 缓存 中 ， 可 能 会 导致 大 量 的 磁盘 检索 ， 这 同样 会 影响 主 库 的 性 能 
并 增加 锁 的 竞争 。 





因此 ， 如 果 需 要 多 个 备 库 ， 一 个 好 办 法 是 从 主 库 移 除 负载 并 使 用 分 


发 主 库 。 分 发 主 库 事实 上 也 是 一 个 备 库 ， 它 的 唯一 目的 就 是 提取 和 提供 
主 库 的 二 进 制 日 志 。 多 个 备 库 连接 到 分 发 主 库 ， 这 使 原来 的 主 库 摆 脱 了 
负担 。 为 了 避免 在 分 发 主 库 上 做 实际 的 查询 ， 可 以 将 它 的 表 修 改 为 
blackhole 存 储 引 擎 ， 如 图 10-11 所 示 。 
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图 10-11: 一 个 主 库 、 一 个 分 发 主 库 和 多 个 备 库 


很 难说 当 备 库 数 据 达 到 多 少时 需要 一 个 分 发 主 库 。 按 照 通 用 准则 ， 
如 果 主 库 接近 满 负载 ， 不 应 该 为 其 建 并 10 个 以 上 的 备 库 。 如 果 有 少量 的 
写 操作 ， 或 者 只 复制 其 中 一 部 分 表 ， 主 库 就 可 以 提供 更 多 的 复制 。 男 
外 ， 也 不 一 定 只 使 用 一 个 分 发 主 库 。 如 果 需 要 的 话 ， 可 以 使 用 多 个 分 发 
主 库 问 大 量 的 备 库 进行 复制 ， 或 者 使 用 金字 塔 状 的 分 发 主 库 。 在 某 些 情 
况 下 ， 可 以 通过 设置 slave_compressed_protocol 来 节约 一 些 主 库 带 
宽 。 这 对 路 数据 中 心 复制 很 有 好 处 。 





还 可 以 通过 分 发 主 库 实 现 其 他 目的 ， 例 如 ， 对 二 进 制 日 志 事件 执行 
过 滤 和 重 写 规则 。 这 比 在 每 个 备 库 上 重复 进行 日 志 记 录 、 重 写 和 过 滤 要 
高 效 得 多 。 





0 


如 果 在 分 发 主 库 上 使 用 blackhole 表 ， 可 以 文 持 更 多 的 备 库 。 虽 然 会 








在 分 发 主 库 执 行 查 询 ， 但 其 代价 非常 小 ， 因 为 blackhole 表 中 没有 任何 数 
据 。blockhole 表 的 缺点 是 其 存在 Bug， 例 如 在 某 些 情况 下 会 忘记 将 自 增 
ID 写 入 到 二 进 制 日 志 中 。 所 以 要 小 心 使 用 blackhole 表 02)。 


一 个 比较 常见 的 问题 是 如 何 确 保 分 发 服务 器 上 的 每 个 表 都 是 
blackhole 存 储 引擎 。 如 果 有 人 在 主 库 创 建 了 一 个 表 并 指定 了 不 同 的 存储 
引擎 呢 ? 确实 ， 不 管 什 么 时 候 ， 在 备 库 上 使 用 不 同 的 存储 引擎 总 会 导致 
同样 的 问题 。 第 见 的 解决 方案 是 设置 服务 器 的 storage_engine 选 项 ; 


storage_engine=blackhole 





这 只 会 影响 那些 没有 指定 存储 引擎 的 CREATE _ TABLE 的 语句 。 如 果 有 
一 个 无 法 控制 的 应 用 ， 这 种 拓扑 结构 可 能 会 非常 脆弱 。 可 以 通过 
skip_innodb 选 项 禁止 InnoDB， 将 表 退 化 为 MyISAM。 但 你 无 法 禁止 
MyISAM 或 者 Memory 引 苟 。 


使 用 分 及 主 库 为 外 一 个 主要 的 屿 点 是 无 法 使 用 一 个 备 库 米 代 痊 主 


库 。 因 为 由 于 分 发 主 库 的 存在 ， 寻 致 各 个 备 库 与 原始 主 库 的 二 进 制 日 志 
坐标 已 经 不 相同 Ga。 








10.4.7 树 或 金字 塔 形 


如 果 正 在 将 主 库 复制 到 大 量 的 备 库 中 。 不 管 是 把 数据 分 发 到 不 同 的 
地 方 ， 还 是 提供 更 高 的 读 性 能 ， 使 用 金字 塔 结构 都 能 够 更 好 地 管理 ， 如 
图 10-12 所 示 。 


这 种 设计 的 好 处 是 减轻 了 主 库 的 负担 ， 就 像 前 一 节 提 到 的 分 发 主 库 
一 样 。 它 的 缺点 是 中 间 层 出 现 的 任何 错误 都 会 影响 到 多 个 服务 硕 。 如 果 








每 个 备 库 和 主 库 直接 相连 就 不 会 存在 这 样 的 问题 。 同 样 ， 中 间 层 次 越 
多 ， 处 理 故 障 会 更 困难 、 更 复杂 。 
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图 10-12: 金字 塔 形 复制 拓扑 


10.4.8 ”定制 的 复制 方案 





MySQL 的 复制 非常 灵活 ， 可 以 根据 需要 定制 解决 方案 。 典 型 的 定 
制 方案 包括 组 合 过 滤 、 分 发 和 向 不 同 的 存储 引擎 复制 。 也 可 以 使 用 “ 黑 
客 手段 >， 例 如 ， 从 一 个 使 用 blackhole 存 储 引擎 的 服务 器 上 复制 或 复制 
到 这 样 的 服务 器 上 (本 章 已 讨论 过 ) 。 可 以 根据 需要 任意 设计 。 这 其 中 
最 大 的 限制 是 合理 地 监控 和 管理 ， 以 及 所 拥有 资源 的 约束 《网 络 带 宽 、 
CPU 能 力 等 ) 。 











选择 性 复制 


为 了 利用 访问 局 部 性 原理 (locality of reference) ， 并 将 需要 读 的 工 
作 集 驻 留 在 内 存 中 ， 可 以 复制 少量 数据 到 备 库 中 。 如 果 每 个 备 库 只 拥有 


主 库 的 一 部 分 数据 ， 并 且 将 读 分 配给 备 库 ， 就 可 以 更 好 地 利用 备 库 的 内 
存 。 并 且 每 个 备 库 也 只 有 主 库 一 部 分 的 写 入 负载 ， 这 样 主 库 的 能 力 更 强 
并 能 保证 备 库 延 迟 。 





这 个 方案 有 点 类 似 下 一 章 我 们 会 讨论 到 的 水 平 数据 划分 ， 但 它 的 优 
势 在 于 主 库 包含 了 所 有 的 数据 集 ， 这 意味 着 无 须 为 了 一 条 写 入 查询 去 访 
问 多 个 服务 器 。 如 条 读 操 作 无 法 在 备 库 上 找到 数据 ， 还 可 以 通过 主 库 来 
查询 。 即 使 不 能 从 备 库 上 读 取 所 有 数据 ， 也 可 以 移 除 大 量 的 主 库 读 负 
担 。 





最 简单 的 方法 是 在 主 库 上 将 数据 划分 到 不 同 的 数据 库 里 。 然 后 将 每 
个 数据 库 复制 到 不 同 的 备 库 上 。 例 如 ， 帮 需要 将 公司 的 每 一 个 部 门 的 数 
据 复制 到 不 同 的 备 库 ， 可 以 创建 名 为 sales、marketing、procurement 
等 的 数据 库 ， 每 个 备 库 通过 选项 replicate_wi1d_do_table 选 项 来 限制 
给 定数 据 库 的 数据 。 下 面 是 sales 数 据 库 的 配置 : 





replicate wild do table = sales.% 





也 可 以 通过 一 台 分 发 主 库 进 行 分 及 。 举 个 例子 ， 如 果 想 通过 一 个 很 
慢 或 者 非常 昂贵 的 网 络 ， 从 一 合 负载 很 高 的 数据 库 上 复制 一 部 分 数据 ， 
就 可 以 使 用 一 个 包含 blackhole 表 和 过 滤 规 则 的 本 地 分 发 主 库 ， 分 发 主 库 
可 以 通过 复制 过 滤 移 除 不 需要 的 日 志 。 这 可 以 避免 在 主 库 上 进行 不 安全 
的 日 志 选 项 设 定 ， 并 且 无 须 传输 所 有 的 数据 到 远程 备 库 。 





分 离 功 能 


许多 应 用 都 混合 了 在 线 事务 处 理 COLTP) 和 在 线 数 据 分 析 
(OLAP) 的 得 询 。OLTP 碍 询 比 较 短 并 且 是 事务 型 的 ，OLAP 碍 询 则 通 
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来 的 负担 完全 不 同 ， 因 此 它们 需要 不 同 的 配置 ， 甚 全 可 能 使 用 不 同 的 存 
储 引 擎 或 者 硬件 。 





一 个 常见 的 办 法 是 将 OLTP 服 务 器 的 数据 复制 到 专门 为 OLAP 工 作 负 
载 准备 的 备 库 上 。 这 些 备 库 可 以 有 不 同 的 硬件 、 配 置 、 索 引 或 者 不 同 的 
存储 引擎 。 如 果 决 定 在 备 库 上 执行 OLAP 碍 询 ， 就 可 能 需要 忍受 更 大 的 
复制 延迟 或 降低 备 库 的 服务 质量 。 这 意味 着 在 一 个 非 专 用 的 备 库 上 执行 
一 些 任务 时 ， 可 能 会 导致 不 可 接受 的 性 能 ， 例 如 执行 一 条 长 时 间 运 行 的 
查询 。 








无 须 做 一 些 特殊 的 配置 ， 除 了 需要 选择 忽略 主 库 上 的 一 些 数据 ， 前 
提 是 能 获得 明显 的 提升 。 即 使 通过 复制 过 滤器 过 滤 掉 一 小 部 分 的 数据 也 
会 减少 1HO 和 缓存 活动 。 





数据 归档 


可 以 在 备 库 上 实现 数据 归档 ， 也 就 是 说 可 以 在 备 库 上 保留 主 库 上 删 
除 过 的 数据 ， 在 主 库 上 通过 delete 语 句 删 除数 据 是 确保 delete 语 句 不 传递 
到 备 库 就 可 以 实现 。 有 两 种 通常 的 办 法 : 一 种 是 在 主 库 上 选择 性 地 禁止 
二 进 制 日 志 ， 男 一 种 是 在 备 库 上 使 用 replicate_ignore_db 规 则 (是 
的 ， 两 种 方法 都 很 危险 ) 。 





第 一 种 方法 需要 先 将 SQL_L0G_BIN 设 置 为 0， 然 后 再 进行 数据 清理 。 
这 种 方法 的 好 处 是 不 需要 在 备 库 进行 任何 配置 ， 由 于 SQL 语句 根本 没有 
记录 到 二 进 制 日 志 中 ， 效 率 会 稍微 有 所 提升 。 最 大 缺点 也 正 因为 没有 将 
在 主 库 的 修改 记录 下 来 ， 因 此 无 法 使 用 二 进 制 日 志 来 进行 审计 或 者 做 按 














时 间 点 的 数据 恢复 。 为 外 还 需要 SUPER 权 限 。 











第 二 种 方法 是 在 清理 数据 之 前 对 主 库 上 特定 的 数据 库 使 用 USE 语 
句 。 例 如 ， 可 以 创建 一 个 名 为 purge 的 数据 库 ， 然 后 在 备 库 的 my.cnf 文 件 
里 设置 replicate_ignore_db=purge 并 重启 服务 器 。 备 库 将 会 忽略 使 用 
了 USE 语 句 指定 的 数据 库 。 这 种 方法 没有 第 一 种 方法 的 缺点 ， 但 有 另 一 
个 小 小 的 缺点 : 备 库 需 要 去 读 取 它 不 需要 的 事件 。 另 外 ， 也 可 能 有 人 
在 purge 数 据 库 上 执行 非 清理 查询 ， 从 而 导致 备 库 无 法 重 放 该 事件 。 











Percona Toolkit 中 的 pt-archiver 支 持 以 上 两 种 方式 。 














佑 二 第 二 种 办 法 是 利用 pinlog_ignere_ 申 来 过 下 复制 事 件 。 但 正如 之 前 提 到 的 ， 这 是 一 
种 很 危险 的 操作 。 








将 备 库 用 作 全 文 检 索 








许多 应 用 要 求 合并 事务 和 全 文 检 索 。 然 而 在 写作 本 书 时 ， 仅 有 
MyISAM 支 持 全 文 检索 ， 但 是 MyISAM 不 支持 事务 (在 MySQL 5.6 有 一 
个 实验 室 预 览 版 本 实现 了 InnoDB 的 全 文 检 索 ， 但 尚未 GA) 。 一 个 普遍 
的 做 法 是 配置 一 台 备 库 ， 将 某 些 表 设 置 为 MyISAM 存 储 引 擎 ， 然 后 创建 
全 文 索引 并 执行 全 文 检 索 查询 。 这 避免 了 在 主 库 上 同时 使 用 事务 型 和 非 
事务 型 存储 引擎 所 带 来 的 复制 问题 ， 减 轻 了 主 库 维护 全 文 索引 的 负担 。 





只 读 备 库 





许多 机 构 选 择 将 备 库 设置 为 只 读 ， 以 防止 在 备 库 进 行 的 无 意识 修改 


导致 复制 中 断 。 可 以 通过 设置 read_only 选 项 来 实现 。 它 会 禁止 大 部 分 
写 操 作 ， 除 了 复制 线程 和 拥有 超级 权限 的 用 户 以 及 临时 表 操 作 。 只 要 不 
给 也 不 应 该 给 普通 用 户 超 级 权限 ， 这 应 该 是 很 完美 的 方法 。 





模拟 多 主 库 复 制 





当前 MySQL 不 支持 多 主 库 复制 (一 个 备 库 拥有 多 个 主 库 ) 。 但 是 
可 以 通过 把 一 台 备 库 轮 流 指 问 多 台 主 库 的 方式 来 模拟 这 种 结构 。 例 如 ， 
可 以 先 将 备 库 指向 主 库 A， 运 行 片 刻 ， 下 将 其 指 癌 主 库 B 并 运行 片刻 ， 
然后 再 次 切换 回 主 库 A。 这 种 办 法 的 效果 取决 于 数据 以 及 两 台 主 库 导致 
备 库 所 需 完 成 的 工作 量 。 如 果 主 库 的 负载 很 低 ， 并 且 主 库 之 间 不 会 产生 
更 新 冲突 ， 残 会 工作 得 很 好 。 








需要 做 一 些 额 外 的 工作 来 为 每 个 主 库 跟 踪 二 进 制 日 志 坐 标 。 可 能 还 
需要 保证 备 库 的 IO 线程 在 每 一 次 循环 提取 超过 需要 的 数据 ， 人 否则 可 能 
会 因为 每 次 循环 反复 地 提取 和 抛弃 大 量 数据 导致 主 库 的 网 络 流量 和 开销 
明显 增 大 。 





还 可 以 使 用 主 - 主 《或 者 环形 ) 复制 结构 以 及 使 用 blackhole 存 储 引 
擎 表 的 备 库 来 进行 模拟 ， 如 网 10-13 所 示 。 

















图 10-13: 使 用 双 主 结构 和 blackhole 存 储 引 擎 表 模 拟 多 主 复制 


在 这 种 配置 中 ， 两 合 主 库 拥 有 目 己 的 数据 ， 但 也 包含 了 对 方 的 表 ， 
但 是 对 方 的 表 使 用 blackhole 存 储 引 擎 以 避免 在 其 中 存储 实际 数据 。 备 库 
和 其 中 任意 一 个 主 库 相 连 都 可 以 。 备 库 不 使 用 blackhole 存 储 引 擎 ， 因 此 
其 对 两 个 主 库 而 言 都 是 有 效 的 。 








事实 上 并 不 一 定 需 要 主 - 主 拓扑 结构 来 实现 ， 可 以 简单 地 将 server1 
复制 到 server2， 再 从 server2 复 制 到 备 库 。 如 果 在 server2 上 为 从 
server1 上 复制 的 数据 使 用 blackhole 存 储 引 擎 ， 束 不 会 包含 任何 server1 
的 数据 ， 如 图 10-14 所 示 。 
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图 10-14: 另 一 种 模拟 多 主 复制 的 方法 


这 些 配 置 方 法 第 第 会 磁 到 一 些 常 见 的 问题 ， 例 如 ， 更 新 冲突 或 者 建 
表 时 明确 指定 存储 引擎 。 


另外 一 个 选择 是 使 用 Continuent 的 Tungsten Replicator， 我 们 会 在 本 


章 稍 后 部 分 讨论 。 
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它 唯 一 的 目的 就 是 更 加 容易 重 放 并 且 / 或 者 过 小 二 进 制 日 志 事 件 。 束 如 
本 章 稍 后 所 述 ， 它 对 骨 尝 后 重 局 复制 很 有 帮助 。 同 时 对 基于 时 间 扣 的 恢 
复 也 很 有 帮助 ， 在 第 15 间 我 们 会 讨论 。 











假设 有 一 组 二 进 制 日 志 或 中 继 日 志 一 一 可 能 从 备份 或 者 一 台 骨 尝 的 
服务 器 上 获取 一 一 希望 能 够 重 放 这 些 日 志 中 的 事件 ， 可 以 通过 
mysqlbinlog 工 具 从 其 中 提取 出 事件 ， 但 更 加 方便 和 高 效 的 方法 是 配置 一 
个 没有 任何 数据 的 MySQL 实 例 并 使 其 认为 这 些 二 进 制 日 志 是 它 拥有 
的 。 如 果 只 是 临时 需要 ， 可 以 从 http:/mysqlsandbox.net 上 获得 一 个 
MySQL 沙 箱 脚 本 来 创建 日 志 服 务 嚣 。 因 为 无 须 执行 二 进 制 日 志 ， 日 志 
服务 器 也 就 不 需要 任何 数据 。 它 的 目的 仅 仪 是 将 数据 提供 给 别 的 服务 器 

(但 复制 账户 还 是 需要 的 ) 。 





我 们 来 看 看 该 策略 是 如 何 工 作 的 〈 稍 后 会 展示 一 些 相 关 应 用 ) 。 假 
设 日 志 被 命名 为 somelog-bin.000001、somelog-bin.000002， 等 等 ， 将 这 
些 日 志 放 到 日 志 服 务 器 的 日 志文 件 夹 中 ， 假 设 为 Var/log/mysq1。 然 后 在 
启动 服务 器 前 编辑 my.cnf 文 件 ， 如 下 所 示 : 


log_bin = /var/log/mysql/somelog-bin 


log_bin_index = /var/log/mysql/somelog-bin. index 








服务 器 不 会 自动 发 现 日 志文 件 ， 因 此 还 需要 更 新 日 志 的 索引 文件 。 
下 面 这 个 命令 可 以 在 类 UNIX 系 统 上 完成 44。 


# /bin/ls -1 /var/log/mysql/somelog-bin.[0-9]* > /var/log/mys 





确保 运行 MySQL 的 账户 能 够 读 写 日 志 索 引文 件 。 现 在 可 以 启动 日 
志 服 务 器 并 通过 SHOW MASTER L0GS 命 令 来 确保 其 找到 日 志文 件 。 





为 什么 使 用 日 志 服 务 器 比 用 mysqlbinlog 来 实现 恢复 更 好 昵 ? 有 以 下 


儿 个 原因 : 


复制 作为 应 用 二 进 制 日 志 的 方法 已 经 被 大 量 的 用 户 所 测试 ， 能 够 证 
明 是 可 行 的 。mysqlbinlog 并 不 能 确保 像 复 制 那样 工作 ， 并 且 可 能 
法 正确 生成 二 进 制 日 志 中 的 数据 更 新 。 

复制 的 速度 更 快 ， 因 为 无 须 将 语句 从 日 志 导 出 来 并 传送 给 

MySQL. 

可 以 很 容易 观察 到 复制 过 程 。 

能 够 更 方便 处 理 错 误 。 例 如 ， 可 以 跳 过 执行 失败 的 语句 。 

更 方便 过 滤 复 制 事件 。 

有 时候 mysqlbinlog 会 因为 日 志 记 录 格 式 更 改 而 无 法 读 取 二 进 制 日 


二 


Ju 0 











10.5 复制 和 容量 规划 


写 操作 通 各 是 复制 的 瓶颈 ， 并 且 很 难 使 用 复制 来 扩展 写 操作 。 当 计 
划 为 系统 增加 复制 容量 时 ， 需 要 确保 进行 了 正确 的 计算 ， 人 否则 很 容易 犯 
一 些 复制 相关 的 错误 。 





例如 ， 假 设 工作 负载 为 20% 的 写 以 及 80% 的 读 。 为 了 计算 简单 ， 假 
设 有 以 下 前 提 : 


。 读 和 写 查 询 包 含 同样 的 工作 量 。 

。 所 有 的 服务 器 是 等 同 的 ， 每 秒 能 进行 1000 次 查询 。 
。 备 库 和 主 库 有 同样 的 性 能 特征 。 

。 可 以 把 所 有 的 读 操作 转移 到 备 库 。 


如 果 当 前 有 一 个 服务 器 能 文 持 每 秒 1000 次 查询 ， 那 么 应 该 增加 多 少 
备 库 才能 处 理 当前 两 倍 的 负载 ， 并 将 所 有 的 读 碍 询 分 配给 备 库 ? 


看 上 去 应 该 增加 两 个 备 库 并 将 1 ”600 次 读 操 作 平分 给 它们 。 但 是 不 
要 在 记 ， 写 入 负载 同样 增加 到 了 400 次 每 秒 ， 并 且 无 法 在 主 备 服务 右 之 
间 进 行 分 扒 。 每 个 备 库 每 秒 必须 处 理 400 次 写 入 ， 这 意味 着 每 个 备 库 写 
入 占 了 409%， 只 能 每 秒 为 600 次 查询 提供 服务 。 因 此 ， 需 要 三 台 而 不 是 
两 台 备 库 来 处 理 双 倍 负载 。 


如 果 负 和 载 再 增加 一 倍 呢 ? 将 有 每 秒 800 次 写 入 ， 这 时 候 主 库 还 能 处 
理 ， 但 备 库 的 写 入 同样 也 提升 到 80%， 这 样 就 需要 16 台 备 库 来 处 理 每 秒 
3 200 次 读 碍 询 。 并 且 如 果 再 增加 一 点 负载 ， 主 库 也 会 无 法 承担 。 


这 远 远 不 是 线性 扩展 ， 查 询 数 量 增加 4 倍 ， 却 需要 增加 17 倍 的 服务 
虱 。 这 说 明 当 为 日 台 主 库 增 加 备 库 时 ， 将 很 快 达 到 投入 远 高 于 回报 的 地 
步 。 这 仅仅 是 基于 上 面 的 假设 ， 还 忽略 了 一 些 事 情 ， 例 如 ， 单 线程 的 基 
于 语句 的 复制 冲冲 导致 备 库容 量 小 于 主 库 。 真 实 的 复制 配置 比 我 们 的 理 
论 计算 还 要 更 差 。 


10.5.1 ”为 什么 复制 无 法 扩展 写 操 作 


糟糕 的 服务 容量 比例 的 根本 原因 是 不 能 像 分 发 读 操 作 那 样 把 写 操 作 
等 同 地 分 发 到 更 多 服务 器 上 。 换 句 话说 ， 复 制 只 能 扩展 读 操 作 ， 无 法 扩 
展 写 操作 。 














你 可 能 想 知道 到 底 有 没有 办 法 使 用 复制 来 增加 写 入 能 力 。 管 膝 是 否 
定 的 ， 根 本 不 行 。 对 数据 进行 分 区 是 唯一 可 以 扩展 写 入 的 方法 ， 我 们 在 
下 一 章 会 讲 到 。 








一 些 读者 可 能 会 想到 使 用 主 - 主 拓扑 结构 (参阅 前 面 介 绍 的 “主动 - 主 
动 模式 下 的 主 - 主 复制 ?) 并 为 两 个 服务 器 执行 写 操作 。 这 种 配置 比 主 备 
结构 能 支持 稍微 多 一 点 的 号 入 ， 因 为 可 以 在 两 台 服 务 器 之 间 共 享 串 行 化 
带 来 的 开销 。 如 果 每 台 服 务 器 上 执行 50% 的 写 入 ， 那 复制 的 执行 量 也 只 
有 509% 需 要 串 行 化 。 理 论 上 讲 ， 这 比 在 一 台 机 器 上 “〈 主 库 ) 对 100% 的 写 
入 并 发 执行 ， 而 在 另外 一 台 机 器 〈 备 库 ) 上 对 100% 的 写 入 做 串 行 化 要 
更 优 。 这 可 能 看 起 来 很 吸引 人 ， 然 而 这 种 配置 还 比 不 上 单 台 服务 器 能 
持 的 写 入 。 一 个 有 50% 的 写 入 被 串 行 化 的 服务 器 性 能 比 一 台 全 部 写 入 都 
并 行 化 的 服务 器 性 能 要 低 。 








这 是 这 种 集 略 不 能 扩展 写 入 的 原因 。 它 只 能 在 两 台 服 务 器 间 共 享 串 


行 化 写 入 的 缺点 。 所 以 “ 链 中 最 弱 的 一 环 ” 并 不 是 那么 弱 ， 它 只 提供 了 比 
主动 -被 动 复 制 稍微 好 点 的 性 能 ， 但 是 增加 了 很 大 的 风险 ， 通 第 不 能 带 
来 任何 好 处 ， 具 体 原因 见 下 一 节 


10.5.2 eth WY RFP aR EIR 





一 个 关于 备 库 比 较 普 遍 的 问题 是 如 何 预测 备 库 会 在 何 时 跟 不 上 主 
库 。 很 难 去 描述 备 库 使 用 的 复制 容量 为 5% 与 95% 的 区 别 ， 但 是 至 少 能 够 
在 接近 饱和 前 预警 并 估计 复制 容量 。 





首先 应 该 观察 复制 延迟 的 尖 刺 。 如 宁 有 复制 延迟 的 曲线 图 ， 需 要 注 
意 到 图 上 的 一 些 短暂 的 延迟 又 升 ， 这 时 候 可 能 负载 加 大 ， 备 库 短 时 间 内 
无 法 跟 上 主 库 。 当 负载 接近 耗 尽 备 库 的 容量 时 ， 会 发 现 曲线 上 的 凸 起 会 
更 高 更 宽 。 前 面 曲线 的 上 升 角 度 不 变 ， 但 随后 当 备 库 在 产生 延迟 后 开始 
追赶 主 库 时 ， 将 会 产生 一 个 平缓 的 和 斜坡。 这 些 突起 的 出 现 和 增长 是 一 个 
ap eRECeMS 量 限 制 。 














为 了 预测 在 将 来 的 共 个 时 间 点 会 发 生 什 么 ， 可 以 人 为 地 制造 延迟 ， 
然后 看 多 久 备 库 能 赶 上 主 库 。 目 的 是 为 了 明确 地 说 明 曲 线 上 的 斜坡 的 陡 
se nn 然后 开局 并 在 1 小 时 内 追赶 上 ， 说 明正 
常情 况 下 只 消耗 了 一 半 的 容量 。 也 就 是 说 ， 如 果 中 午 12:00 停 止 备 库 复 
制 ， 在 1:00 开 启 ， ess 备 库 在 一 小 时 内 完成 了 两 个 小 时 
内 所 有 的 变更 ， 说 明 复制 可 以 在 双 信 速度 下 运行 。 














最 后 ， 如 果 使 用 的 是 Percona Server 或 者 MariaDB， 也 可 以 直接 获取 
复制 的 利用 率 。 打 开 服 务 器 变量 userstat， 然 后 执行 如 下 语句 : 


mysql> SELECT * FROM INFORMATION_SCHEMA.USER_STATISTICS 


-> WHERE USER='#mysql_system#'\G 


火炎 炎炎 火炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 


USER: 
OTAL_CONNECTIONS: 
CONCURRENT_CONNECTIONS: 
CONNECTED_TIME: 
BUSY_TIME: 
ROWS_FETCHED: 
ROWS_UPDATED: 
SELECT_COMMANDS: 
UPDATE_COMMANDS : 
OTHER_COMMANDS: 
COMMIT_TRANSACTIONS: 
ROLLBACK_TRANSACTIONS : 


火炎 大 大 大 大 大 大 大大 大 大 大 大 大大 类 大 类 大 类 大 大 大 大 大 


row 


#mysql_system# 


1882292 
0 
580431 
338857 
1016571 
0 


可 以 将 BUSY_TIME 和 CONNECTED_ TIME 的 一 半 “〈 因 为 备 库 有 两 个 复制 








线程 ) 做 比较 ， 来 观察 备 库 线程 实际 执行 命令 所 花费 的 时 间 %。 在 我 


们 的 例子 里 ， 备 库 大 约 使 用 了 其 3% 的 能 力 ， 这 并 不 意味 着 它 不 会 遇 到 
偶然 的 延迟 尖 刺 一 一 如 果 主 库 运 行 了 一 个 超过 10 分 钟 才 完 成 的 变更 ， 可 
能 延迟 的 时 间 和 变更 执行 的 时 间 是 相同 的 一 一 但 这 很 好 地 暗示 了 备 库 能 
够 很 快 从 一 个 延迟 尖 刺 中 恢复 。 








10.5.3 ”规划 元 余 容 量 


在 构建 一 个 大 型 应 用 时 ， 有 意 让 服务 器 不 被 充分 使 用 ， 这 应 该 是 一 





种 聪明 并 且 划 算 的 方式 ， 尤 其 在 使 用 复制 的 时 候 。 有 多 余 容 量 的 服务 器 
可 以 更 好 地 处 理 负 载 尖 峰 ， 也 有 更 多 能 力 处 理 慢 速 查询 和 维护 工作 (如 
OPTIMIZE TABLE 操 作 ) ， 并 且 能 够 更 好 地 跟 上 复制 。 





试图 同时 问 主 - 主 拓 扑 结 构 的 两 个 节 扣 写 入 来 减少 复制 问题 通常 是 
不 划算 的 。 分 配给 每 台 机 口 的 读 负 载 应 该 低 于 50% ， 人 否则 ， 如 果 东 人 台 服 
务 器 失效 ， 就 没有 足够 的 容量 了 。 如 果 两 全 服务 器 都 能 够 独立 处 理 负 
载 ， 就 用 不 着 担心 复制 的 问题 了 。 











构建 元 余 容量 也 是 实现 高 可 用 性 的 最 佳 方式 之 一 ， 当 然 还 有 别 的 方 
式 ， 例 如 ， 当 错误 发 生 时 让 应 用 在 降级 模式 下 运行 ， 第 12 章 会 介绍 更 多 
的 细 市 。 


10.6 ”复制 管理 和 维护 


配置 复制 一 般 来 说 不 会 是 需要 经 常 做 的 工作 ， 除 非 有 很 多 服务 器 。 
但 是 一 旦 配置 了 复制 ， 监 控 和 管理 复制 拓扑 应 该 成 为 一 项 日 党 工作， 不 
管 有 多 少 服务 器 。 


























这 些 工 作 应 该 尽量 上 自动化， 但 不 一 定 需 要 上 自己 写 工 具 来 实现 : 在 16 
章 我 们 讨论 了 几 个 MYSQL 工具 ， 其 中 许多 都 拥有 内 建 的 监控 复制 的 能 
力 或 插件 。 





10.6.1 监控 复制 


复制 增加 了 MySQL 监 控 的 复杂 性 。 尽 管 复制 发 生 在 主 库 和 备 库 
上 ， 但 大 多 数 工 作 是 在 备 库 上 完成 的 ， 这 也 正 是 最 常 出 问题 的 地 方 。 是 
含 所 有 的 备 库 都 在 工作 ? 最 慢 的 备 库 延迟 是 多 大 ?MySQL 本 里 提供 了 
大 量 可 以 回答 上 述 问题 的 信息 ， 但 要 实现 自动 化 监控 过 程 以 及 使 复制 更 
健壮 还 是 需要 用 户 做 更 多 的 工作 。 








在 主 库 上 ， 可 以 使 用 SHOW MASTER STATUS 命令 来 得 看 当前 主 库 的 二 
进 制 日 志 位 置 和 配置 “详细 参阅 前 面 介 绍 的 “配置 主 库 和 备 库 ? 部 分 ) 。 
还 可 以 查看 主 库 当 前 有 哪些 二 进 制 日 志 是 在 磁盘 上 的 : 





—_ SHOW MASTER —_ 


| Log_name | File size | 


+------------------ +----------- + 
| mysql-bin.000220 | 425605 | 
| mysql-bin.000221 | 1134128 | 
| mysql-bin.000222 | 13653 | 
| mysql-bin.000223 | 13634 | 
+------------------ +----------- + 


该 命令 用 于 给 PURGE MASTER L0GS 命 令 决 定 使 用 哪个 参数 。 另 外 还 
可 以 通过 SHOW BINLOG EVENTS 来 查看 复制 事件 。 例 如 ， a mm 
令 后 ， 我 们 在 另 一 个 不 曾 使 用 过 的 服务 器 上 创建 一 个 表 ， neh 
唯一 改变 数据 的 语句 ， 而 且 也 知道 语句 在 二 进 制 日 志 中 的 偏 移 
13634， 所 以 我 们 可 以 看 到 如 下 内 容 : 








mysql> SHOW BINLOG EVENTS IN 'mysql-bin.000223' FROM 13634\G 
FOI IO IO IO ICICI IO IOI ICGIIG J. pow IOI II ITO III TO IO I 
Log_name: mysql-bin.000223 
Pos: 13634 
Event_type: Query 
Server_id: 1 
End_log_pos: 13723 


Info: use ‘test’; CREATE TABLE test.t(a int) 


10.6.2 ”测量 备 库 延迟 


一 个 比较 普 壳 的 问题 是 如 何 监控 备 库 落 后 主 库 的 延迟 有 多 大 。 虽 
SRSHOW SLAVE STATUS 输出 的 Seconds_behind master 列 理论 上 显示 了 备 
库 的 延 时 ， 但 由 于 各 种 各 样 的 原因 ， 并 不 总 是 准确 的 : 


。 备 库 Seconds_behind_master 值 是 通过 将 服务 器 当前 的 时 间 惟 与 二 


进 制 日 志 中 的 事件 的 时 间 惟 相对 比 得 到 的 ， 所 以 只 有 在 执行 事件 时 
才能 报告 延迟 。 

如 果 备 库 复制 线程 没有 运行 ， 就 会 报 延迟 为 NULL。 

一 些 错 误 (例如 主 备 的 max_allowed packet 不 匹配 ， 或 者 网 络 不 稳 
定 ) 可 能 中 断 复 制 并 且 / 或 者 停止 复制 线程 ， 

但 Seconds behind _ master 将 显示 为 0 而 不 是 显示 错误 。 

即使 备 库 线程 正在 运行 ， 备 库 有 时 候 可 能 无 法 计算 延 时 。 如 果 发 生 
这 种 情况 ， 备 库 会 报 0 或 者 NULL。 

一 个 大 事务 可 能 会 导致 延迟 波动 ， 例 如 ， 有 一 个 事务 更 新 数据 长 达 
一 个 小 时 ， 最 后 提交 。 这 条 更 新 将 比 它 实际 发 生 时 间 要 晚 一 个 小 时 
才 记 录 到 二 进 制 日 志 中 。 当 备 库 执行 这 条 语句 时 ， 会 临时 地 报告 备 
库 延 迟 为 一 个 小 时 ， 然 后 又 很 快 变 成 0。 

如 采 分 发 主 库 沙 后 了 ， 并 且 其 本 喘 也 有 已 经 退 赶 上 它 的 备 库 ， 备 库 
的 延迟 将 显示 为 0， 而 事实 上 和 源 主 库 之 间 是 有 延迟 的 。 











解决 这 些 问 题 的 办 法 是 忽略 Seconds_behind_master 的 值 ， 并 使 用 
一 些 可 以 直接 观察 和 衡量 的 方式 来 监控 备 库 延迟 。 最 好 的 解决 办 法 是 使 
用 heartbeat record， 这 是 一 个 在 主 库 上 会 每 秒 更 新 一 次 的 时 间 戳 。 为 了 
计算 延 时 ， 可 以 直接 用 备 库 当前 的 时 间 惟 减 去 心跳 记录 的 值 。 这 个 方法 
能 够 解决 刚刚 我 们 提 到 的 所 有 问题 ， 另 外 一 个 额外 的 好 处 是 我 们 还 可 以 
通过 时 间 惟 知道 备 库 当 前 的 复制 状况 。 包 含 在 Percona ”Toolkit 里 的 pt- 
heartbeat 脚 本 是 “复制 心跳 ”最 流行 的 一 种 实现 。 











心跳 还 有 其 他 好 处 ， 记 录 在 二 进 制 日 志 中 的 心跳 记录 拥有 许多 用 
途 ， 例 如 在 一 些 很 难 解决 的 场景 下 可 以 用 于 灾难 恢复 。 


我 们 刚刚 所 描述 的 几 种 延迟 指标 都 不 能 表明 备 库 需 要 多 长 时 间 才 能 
赶 上 主 库 。 这 依赖 于 许多 因素 ， 例 如 备 库 的 写 入 能 力 以 及 主 库 持 续 写 入 


的 次 数 。 关 于 这 个 话题 ， 详 细 参 阅 前 和 面 介绍 的 “ 何 时 备 库 开始 延迟 ”。 


10.6.3 ”确定 主 备 是 否 一 致 


在 理想 情况 下 ， 备 库 和 主 库 的 数据 应 该 是 完全 一 样 的 。 但 事实 上 备 
库 可 能 发 生 错误 并 导致 数据 不 一 致 。 即 使 没有 明显 的 错误 ， 备 库 同样 可 
能 因为 MySQL 自 号 的 特性 导致 数据 不 一 致 ， 例 如 MySQL 的 Bug、 网 络 
中 断 、 服 务 器 裔 溃 ， 非 正常 关闭 或 者 其 他 一 些 错误 。@ 








按照 我 们 的 经 验 来 看 ， 主 备 一致 应 该 是 一 种 规范 ， 而 不 是 例外 ， 也 
就 是 说 ， 检 碍 你 的 主 备 一 致 性 应 该 是 一 个 日 常 工作 ， 特 别 是 当 使 用 备 库 
来 做 备份 时 尤为 重要 ， 因 为 你 肯定 不 希望 从 一 个 已 经 损坏 的 备 库 里 获得 
备份 数据 。 





MySQL 并 没有 内 建 的 方法 来 比较 一 台 服 务 器 与 别 的 服务 器 的 数据 
古 否 相同 。 它 提供 了 一 些 组 件 来 为 表 和 数据 生成 校 验 值 ， 例 如 CHECKSUM 
TABLE。 但 当 复 制 正在 进行 时 ， 这 种 方法 是 不 可 行 的 。 





Percona Toolkit 里 的 pt-table-checksum 能 够 解决 上 述 几 个 问题 。 其 主 
要 特性 是 用 于 确认 备 库 与 主 库 的 数据 是 否 一 致 。 工 作 方式 是 通过 在 主 库 
上 执行 INSERT. . . SELECT 查询 。 





这 些 查 询 对 数据 进 人 ~o TRP. 这 些 WE 
复制 传递 到 备 库 ， 并 在 备 库 执行 一 这， 然后 可 以 比较 主 备 上 的 结 
一 样 。 ee ns 它 能 够 给 出 一 致 的 RTIAI 
时 把 主 备 上 的 表 都 锁 上 。 











通常 情况 下 可 以 在 主 库 上 运行 该 工具 ， 参 数 如 下 : 


$ pt-table-checksum --replicate=test.checksum <master_host> 


该 命令 将 检查 所 有 的 表 ， 并 将 结果 插入 到 testchecksum 表 中 。 当 碍 
询 在 备 库 执行 完 后 ， 束 可 以 简单 地 比较 主 备 之 则 的 不 同 了 。pt-table- 
checksum 能 够 发 现 服务 器 所 有 的 备 库 ， 在 每 台 备 库 上 运行 查询 ， 并 上 自动 
地 输出 结果 。 在 写作 本 书 时 ，pt-table-checksum 是 唯一 能 够 有 效 地 比较 
主 备 一 致 性 的 工具 。 


10.6.4 从 主 库 重 新 同步 备 库 


在 你 的 职业 生涯 中 ， 也 许 会 不 止 一 次 需要 去 处 理 未 被 同步 的 备 库 。 
可 能 是 使 用 校 验 工具 发 现 了 数据 不 一 致 ， 或 是 因为 已 经 知道 是 备 库 忽略 
了 菏 条 碍 询 或 者 有 人 在 备 库 上 修改 了 数据 。 

















传统 的 修复 不 一 致 的 办 法 是 关闭 备 库 ， 然 后 重新 从 主 库 复制 一 份 数 
据 。 当 备 库 数 据 不 一 致 的 问题 可 能 导致 严重 后 果 时 ， 一 旦 发 现 就 应 该 将 
备 库 停止 并 从 生产 环境 移 除 ， 然 后 再 从 一 个 备份 中 克隆 或 恢复 备 库 。 





这 种 方法 的 缺点 是 不 太 方 便 ， 特 别 是 数据 量 很 大 时 。 如 采 能 够 找 出 
并 修复 不 一 致 的 数据 ， 要 比 从 其 他 服务 器 上 重新 克隆 数据 要 有 效 得 多 。 
如 果 发 现 的 不 一 致 并 不 严重 ， 就 可 以 保持 备 库 在 线 ， 并 重新 同步 受 影响 
的 数据 。 


最 简单 的 办 法 是 使 用 mysqldump 转 储 受 影响 的 数据 并 重新 导入 。 在 
整个 过 程 中 ， 如 果 数 据 没有 发 生变 化 ， 这 种 方法 会 很 好 。 你 可 以 在 主 库 
上 简单 地 锁 住 表 然 后 进行 转 储 ， 再 等 待 备 库 赶 上 主 库 ， 然 后 将 数据 导入 
到 备 库 中 。《 需 要 等 待 备 库 赶 上 主 库 ， 这 样 就 不 至 于 为 其 他 表 引 入 新 的 





不 一 致 ， 例 如 那些 可 能 通过 和 失去 同步 的 表 做 join 后 进行 数据 更 新 的 
表 ) 。 











虽然 这 种 方法 在 许多 场景 下 是 可 行 的 ， 但 在 一 个 索 忙 的 服务 右上 有 
可 能 行 不 通 。 男 外 一 个 缺点 是 在 备 库 上 通过 非 复 制 的 方式 改变 数据 。 通 
过 复制 改变 备 库 数 据 〈( 通 过 在 主 库 上 执行 更 新 通常 是 一 种 安全 的 技 
术 ， 因 为 它 避 人 免 了 竞 搜 条 件 和 其 他 意料 外 的 事情 。 如 果 表 很 大 或 者 网 络 
帝 宽 受 限 ， 转 储 和 重 载 数据 的 代价 依然 很 高 。 当 在 一 个 有 一 百 万 行 的 表 
上 只 有 一 干 行 不 同 的 数据 呢 ? 转 储 和 重 载 表 的 数据 是 非常 浪费 资源 的 。 














pt-table-sync 是 Percona ”Toolkit 中 的 另外 一 个 工具 ， 可 以 解决 该 问 
题 。 该 工具 能 够 蜗 效 地 查找 并 解决 表 之 间 的 不 同 。 它 同样 通过 复制 工 
作 ， 在 主 库 上 执行 查询 ， 在 备 库 上 重新 同步 ， 这 样 就 没有 竞争 条 件 。 它 
是 结合 pt-table-checksum 生 成 的 checksum 表 来 工作 的 ， 所 以 只 能 操作 那 
些 己 知 不 同步 的 表 的 数据 块 。 但 该 工具 不 是 在 所 有 场景 下 都 有 效 。 为 了 
正确 地 同步 主 库 和 备 库 ， 该 工具 要 求 复 制 是 正常 的 ， 否 则 就 无 法 工 
作 。Ppt-table-sync 设 计 得 很 高 效 ， 但 当 数据 量 非 常 大 时 效率 还 是 会 很 
低 。 比 较 主 库 和 备 库 上 1TB 的 数据 不 可 避免 地 会 市 来 额外 的 工作 。 尽 管 
如 此 ， 在 那些 合适 的 场景 中 ， 该 工具 依然 能 节约 大 量 的 时 间 和 工作 。 























10.6.5 ”改变 主 库 


迟早 会 有 把 备 库 指 同 一 个 新 的 主 库 的 需求 。 也 许 是 为 了 更 友 升 级 服 
务 句 ， 或 者 是 主 库 出 现 问题 时 需要 把 一 人 台 备 库 转 换 成 主 库 ， 或 者 只 是 而 
望 重新 分 配 容量 。 不 管 出 于 什么 原因 ， 郑 需要 告诉 其 他 的 备 库 新 主 库 的 


主 自 


Ho 








如 果 这 是 计划 内 的 操作 ， 会 比较 容易 “至 少 比 紧急 情况 下 要 容 
易 ) 。 只 需 在 备 库 简 单 地 使 用 CHANGE MASTER TOMS, HI EMEK 
值 。 大 多 数值 都 是 可 选 的 。 只 需要 指定 需要 改变 的 项 即 可 。 备 库 将 抛 大 
之 前 的 配置 和 中 继 日 志 并 从 新 的 主 库 开 始 复制 。 同 样 新 的 参数 会 家 更 新 
到 master.info 文 件 中 ， 这 样 就 算 重 局 ， 备 库 配 置信 息 也 不 会 丢失。 








整个 过 程 中 最 难 的 是 获取 新 主 库 上 合适 的 二 进 制 日 志 位 置 ， 这 样 备 
库 才 可 以 从 和 老 主 库 相 同 的 逻辑 位 置 开始 复制 。 





把 备 库 提升 为 主 库 要 更 困难 一 点 。 有 两 种 场景 需要 将 备 库 蔡 换 为 主 
库 ， 一 种 是 计划 内 的 提升 ， 一 种 是 计划 外 的 提升 。 


计划 内 的 提升 


把 备 库 提升 为 主 库 理 论 上 是 很 简单 的 。 简 单 来 说 ， 有 以 下 步 又 : 


1. 停止 同 老 的 主 库 写 入 。 

2. 让 备 库 追赶 上 主 库 《〈 可 选 的 ， 会 简化 下 面 的 步骤 ) 。 
3. 将 一 台 备 库 配 置 为 新 的 主 库 。 

4. 将 备 库 和 写 操作 指 回 新 的 主 库 ， 然 后 开 司 主 库 的 写 入 。 














但 这 其 中 还 隐藏 着 很 多 细节 。 一 些 场景 可 能 依赖 于 复制 的 拓扑 结 
构 。 例 如 ， 主 - 主 结构 和 主 - 备 结构 的 配置 就 有 所 不 同 。 











更 深入 一 氮 ， 下 面 是 大 多 数 配置 需要 的 步骤 : 


1. 停止 当前 主 库 上 的 所 有 写 操 作 。 如 果 可 以 ， 最 好 能 将 所 有 的 客户 端 
程序 关闭 〈 除 了 复制 连接 ) 。 为 客户 端 程序 建立 一 个 “do not run” 这 





样 的 类 似 标记 可 能 会 有 所 帮助 。 如 果 正 在 使 用 虚拟 耳 地 址 ， 也 可 以 
简单 地 关闭 虚拟 卫 ， 然 后 断 开 所 有 的 客户 问 连 接 以 关闭 其 打开 的 事 
务 。 





_ 通过 FLUSH TABLES WITH READ LOCK 在 主 库 上 停止 所 有 活跃 的 写 


入 ， 这 一 步 是 可 选 的 。 也 可 以 在 主 库 上 设置 read_only 选 项 。 从 这 
一 刻 开 始 ， 应 该 禁止 癌 即 将 被 蔡 换 的 主 库 做 任何 写 入 。 因 为 一 旦 它 
不 是 主 库 ， 写 入 就 意味 着 数据 丢失 。 注 意 ， 即 使 设置 read_only 也 
不 会 阻止 当前 已 存在 的 事务 继续 提交 。 为 了 更 好 地 保证 这 一 点 ， 可 
以 “kill* 所 有 打开 的 事务 ， 这 将 会 真正 地 结束 所 有 写 入 。 





. 选择 一 个 备 库 作为 新 的 主 库 ， 并 确保 它 已 经 完全 跟 上 主 库 《例如 ， 





让 它 执行 完 所 有 从 主 库 获得 的 中 继 日 志 )〉。 


. 确保 新 主 库 和 旧 主 库 的 数据 是 一 臻 的。 可 选 。 
. 在 新 主 库 上 执行 STOP SLAVE. 
. 在 新 主 库 上 执行 CHANGE MASTER TO ”MASTER HOST=''， 然 后 再 执 


行 RESET SLAVE， 使 其 断 开 与 老 主 库 的 连接 ， 并 丢弃 master.info 里 记 
录 的 信息 《如 果 连 接 信息 记录 在 my.cnf 里 ， 会 无 法 正确 工作 ， 这 也 
是 我 们 建议 不 要 把 复制 连接 信息 写 到 配置 文件 里 的 原因 之 一 ) 。 





. 执行 SHOW MASTER STATUS 记录 新 主 库 的 二 进 制 日 志 坐 标 。 

.确保 其 他 备 库 已 经 退 赶 上 。 

. 关闭 旧 主 库 。 

. 在 MySQL 5.1 及 以 上 版 本 中 ， 如 果 需 要 ， 激 活 新 主 库 上 事件 。 

. 将 客户 端 连接 到 新 主 库 。 

. 在 每 台 备 库 上 执行 CHANGE MASTER ”TO 语句 ， 使 用 之 前 通过 SHOW 





MASTER STATUS 获得 的 二 进 制 日 志 坐 标 ， 来 指 回 新 的 主 库 。 





zh 5 by 


当 将 备 库 提升 为 主 库 时 ， 要 确保 备 库 上 任何 特有 的 数据 库 、 表 和 权限 已 经 被 移 除 。 











| 
~ 





可 能 还 需要 修改 备 库 特有 的 配置 选项 ， 例 如 innodb flush_log at_trx_commit 选 项 。 同 样 的 ， 
如 果 是 把 主 库 降 级 为 备 库 ， 也 要 保证 进行 需要 的 配置 。 





























如 果 主 备 的 配置 相同 ， 就 不 需要 做 任何 改变 。 
计划 外 的 提升 
当主 库 骨 尝 时 ， 需 要 提升 一 台 备 库 来 代 葵 它 ， 这 个 过 程 可 能 束 不 太 


容易 。 如 果 只 有 一 台 备 库 ， 可 以 直接 使 用 这 台 备 库 。 但 如 果 有 超过 一 台 
的 备 库 ， 就 需要 做 一 些 额 外 的 工作 。 








另外 ， 还 有 淤 在 的 丢失 复制 事件 的 问题 。 可 能 有 主 库 上 已 发 生 的 修 
改 还 没有 更 新 到 它 的 任何 一 台 备 库 上 的 情况 。 甚 至 还 可 能 一 条 语句 在 主 
库 上 执行 了 回 滚 ， 但 在 备 库 上 没有 回 滚 ， 这 样 备 库 可 能 超过 主 库 的 逻辑 
复制 位 置 42。 如 果 能 在 某 一 点 恢复 主 库 的 数据 ， 也 许 就 可 以 取得 丢失 
的 语句 并 手动 执行 它们 。 




















在 以 下 步骤 中 ， 需 要 确保 在 计算 中 使 用 Master_Log File 和 
Read Master_Log Pos 的 值 。 以 下 是 对 主 备 拓扑 结构 中 的 备 库 进 行 提 升 
的 过 程 : 


1. 确定 哪 台 备 库 的 数据 最 新 。 检 查 每 侣 备 库 上 SHOW SLAVE STATUS 命 
令 的 输出 ， 选 择 其 中 Master Log File/read Master Log Pos 的 值 
最 新 的 那个 。 

2. 让 所 有 备 库 执行 完了 所 有 其 从 骨 演 前 的 旧 主 库 那 获得 的 中 继 日 志 。 如 
果 在 未 完成 前 修改 备 库 的 主 库 ， 它 会 抛弃 剩 下 的 日 志 事 件 ， 从 而 无 
法 获知 该 备 库 在 什么 地 方 停止 。 

3. 执行 前 一 小 节 的 5 一 7 步 。 




















4. 比较 每 台 备 库 和 新 主 库 上 的 
Master Log File/Read Master Log Pos 的 值 。 
5. 执行 前 一 小 节 的 10 一 12 步 。 


正如 本 半 开 始 我 们 推荐 的 ， 假 设 已 经 在 所 有 的 备 库 上 开局 了 
log_bin 和 log_slave_updates， 这 样 可 以 帮助 你 将 所 有 的 备 库 恢复 到 一 
个 一 致 的 时 间 上 把， 如 果 没 有 开局 这 两 个 选项 ， 则 不 能 可 徘 地 做 到 这 一 
Fao 





确定 期 望 的 日 志 位 置 








如 果 有 备 库 和 新 主 库 的 位 置 不 相同 ， 则 需要 找到 该 备 库 最 后 一 条 执 
行 的 事件 在 新 主 库 的 二 进 制 日 志 中 相应 的 位 置 ， 然 后 再 执行 CHANGE 
MASTER T0。 可 以 通过 mysqlbinlog 工 具 来 找到 备 库 执 行 的 最 后 一 条 查 
询 ， 然 后 在 主 库 上 找到 同样 的 查询 ， 进 行 简单 的 计算 即 可 得 到 。 





为 了 便于 摘 述 ， 假 设 每 个 日 志 事 件 有 一 个 自 增 的 数字 ID， 最 新 的 备 
库 ， 也 就 是 新 主 库 ， 在 旧 主 库 骨 省 时 获得 了 编号 为 100 的 事件 ， 假 设 有 
另外 两 台 备 库 : replica2 和 replica3。replica2 已 经 获取 了 99 号 事 
件 ，replica3 获 取 了 98 号 事件 。 如 果 把 两 台 备 库 都 指 癌 新 主 库 的 同一 个 
二 进 制 日 志 位 置 ， 它 们 将 从 101 号 事件 开始 复制 ， 从 而 导致 数据 不 同 
步 。 但 只 要 新 主 库 的 二 进 制 日 志 已 经 通过 log_slave_updates 打 开 ， 就 
可 以 在 新 主 库 的 二 进 制 日 志 中 找到 99 号 和 100 号 日 志 ， 从 而 将 备 库 恢复 
到 一 致 的 状态 。 


由 于 服务 器 重启 ， 不 同 的 配置 ， 日 志 轮 转 或 者 FLUSH L0GS 命 令 ， 同 
一 个 事件 在 不 同 的 服务 器 上 可 能 有 不 同 的 偏 移 量 。 找 到 这 些 事件 可 能 会 








耗 时 很 长 并 且 顶 燥 ， 但 是 通常 没有 难度 。 通 过 mysqlbinlog 从 二 进 制 日 志 
或 中 继 日 志 中 解析 出 每 台 备 库 上 执行 的 最 后 一 个 事件 ， 并 同样 使 用 该 命 
令 解 析 新 主 库 上 的 三 进 制 日 志 ， 找 到 相同 的 查询 ，mysqlbinlog 会 打印 出 
该 事件 的 偏 移 量 ， 在 CHANGE MASTER T0 命 令 中 使 用 这 个 值 G8)。 











更 快 的 方法 是 把 新 主 库 和 停止 的 备 库 上 的 字 节 偏 移 量 相 减 ， 它 显示 
了 字 节 位 置 的 差异 。 然 后 把 这 个 值 和 新 主 库 当前 二 进 制 日 志 的 位 置 相 
减 ， 就 可 以 得 到 期 望 的 查询 的 位 置 。 只 需要 验证 一 下 就 可 以 据 此 启动 备 
库 。 


让 我 们 看 看 一 个 相关 的 例子 ， 假 设 server1 是 server2 和 server3 的 
主 库 ， 其 中 服务 器 server1 已 经 朋 尝 。 根 据 SHOW SLAVE ”STATUS 获 得 
Master Log File/Read Master Log Pos 的 值 ，server2 已 经 执行 完了 
server1 上 所 有 的 二 进 制 日 志 ， 但 server3 还 不 是 最 新 数据 。 图 10-15 显 
示 了 这 个 场景 (日 志 事 件 和 偏 移 量 仪 仪 是 为 了 举例 )。 














正如 图 10-15 所 示 ， 我 们 可 以 肯定 server2 已 经 执行 完了 主 库 上 的 所 
有 二 进 制 有 日志， 因为 Master Log File 和 Read Master Log Pos 值 和 
server1 上 最 后 的 日 志 位 置 是 相 吻 合 的 ， 因 此 我 们 可 以 将 server2 提 升 为 
新 主 库 ， 并 将 server3 设 置 为 server2 的 备 库 。 








mysql-bin.000001 


1450 | UPDATE 
1493 | DELETE 
1582 | INSERT 


ra 
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; W 
Fa 
| Server? | Serveri 


Master_Log_File = mysql-bin.000001 Master_Log_File = mysql-bin.000001 
Read_Master_Log_Pos = 1582 Read_Master_Log_Pos = 1493 
meysqql-ban.000009 
8035 | UPDATE 为 了 清楚 起 见 ， 
8078 | DELETE 省 略 二 进 制 日 志 
8167 | INSERT 文件 











图 10-15: 当 server1 前 溃 ，server2 已 追赶 上 ， 但 server3 的 复制 落后 


应 该 在 server3 上 为 需要 执行 的 CHANGE MASTER T0 语 句 赋 予 什么 样 
的 参数 呢 ? 这 里 需要 做 一 点 点 计算 和 调查 。server3 在 偏 移 量 1493 停 
止 ， 比 server2 执 行 的 最 后 一 条 语句 的 偏 移 量 1582 要 小 89 字 节 。server2 
正在 向 偏 移 量 为 8167 的 二 进 制 日 志 写 入 ，8167-89= 8078， 因 此 理论 上 我 
们 应 该 将 server3 指 同 server2 的 日 志 的 偏 移 量 为 8078 的 位 置 。 最 好 去 确 
认 下 这 个 位 置 附近 的 日 志 事件 ， 以 确定 在 该 位 置 上 是 否 是 正确 的 日 志 
件 ， 因 为 可 能 有 别 的 例外 ， 例 如 有 些 更 新 可 能 只 发 生 在 server2 上 。 


假设 我 们 观察 到 的 事件 是 一 样 的 ， 下 面 这 条 命令 会 将 server3 切 换 
为 server2 的 备 库 。 


server2> CHANGE MASTER TO MASTER_HOST="Server2", MASTER_LOG_F 


MASTER_LOG_POS=8078; 
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地 失去 了 一 个 事件 。 但 是 如 宋 老 主 库 的 磁盘 没有 损坏 ， 仍 然 可 以 通过 
mysqlbinlog 或 者 从 日 志 服 务 嚣 的 二 进 制 日 志 中 找到 丢失 的 事件 。 


如 采 需 要 从 老 主 库 上 恢复 丢失 的 事件 ， 建 议 在 提升 新 主 库 之 后 且 在 
允许 客户 端 连 接 之 前 做 这 件 事情 。 这 样 就 无 须 在 每 侣 备 库 上 都 执行 丢失 
的 事件 ， 只 需 使 用 复制 来 完成 。 但 如 果 毅 溃 的 老 主 库 完全 不 可 用 ， 就 不 
得 不 等 待 ， 稍 后 再 做 这 项 工作 。 











上 述 流程 中 一 个 可 调整 的 地 方 是 使 用 可 靠 的 方式 来 存储 二 进 制 日 
志 ， 如 SAN 或 分 布 式 复制 数据 库 设备 (DRBD) 。 即 使 主 库 完全 失效 ， 
依然 能 够 获得 它 的 二 进 制 日 志 。 也 可 以 设置 一 个 日 志 服 务 器 ， 把 备 库 指 
癌 它 ， 然 后 让 所 有 备 库 赶 上 主 库 失效 的 点 。 这 使 得 提升 一 个 备 库 为 新 的 
主 库 没 那么 重要 ， 本 质 上 这 和 计划 中 的 提升 是 相同 的 。 我 们 将 在 下 一 章 
进一步 讨论 这 些 存储 选项 。 





a 


一 人 | 当 提升 一 各 备 库 为 主 库 时 ， 千 万 不 要 将 它 的 服务 器 ID 修改 成 原 主 库 的 服务 器 





















































ID， 和 否则 将 不 能 使 用 日 志 服务 器 从 一 个 旧 主 库 来 重 放 日 志 事件 。 这 也 是 确保 服务 器 ID 最 好 保持 
不 变 的 原因 之 一 。 


10.6.6 ”在 一 个 主 - 主 配 置 中 交换 角色 


主 - 主 复制 拓扑 结构 的 一 个 好 处 束 是 可 以 很 容易 地 切换 主动 和 被 动 
的 角色 ， 因 为 其 配置 是 对 称 的 。 本 小 节 介 绍 如 何 完 成 这 种 切换 。 





























当 在 主 - 主 配 置 下 切换 角色 时 ， 必 须 确保 任何 时 候 只 有 一 个 服务 器 
可 以 写 入 。 如 果 两 合 服务 器 交叉 写 入 ， 可 能 会 导致 写 入 冲突 。 换 句 话 
说 ， 在 切换 角色 后 ， 原 被 动 服务 器 不 应 该 接收 到 主动 服务 器 的 任何 二 进 








制 日 志 。 可 以 通过 确保 原 被 动 服务 器 的 复制 SQL 线 程 在 该 服务 器 可 写 之 
前 已 经 赶 上 主动 服务 器 来 避免 。 


通过 以 下 步骤 切换 服务 器 角色 ， 可 以 避免 更 新 冲突 的 危险 : 


1. 停止 主动 服务 器 上 的 所 有 写 入 。 

2. 在 主动 服务 器 上 执行 SET GLOBAL read_only=1， 同 时 在 配置 文件 里 
也 设置 一 下 read_only， 防 目 重 启 后 失效 。 但 记 住 这 不 会 阻止 拥有 
超级 权限 的 用 户 更 改 数据 。 如 果 想 阻止 所 有 人 更 改 数据 ， 可 以 执 
行 FLUSH TABLES WITH READ LOCK。 如 果 没 有 这 么 做 ， 你 必须 k 记 所 
有 的 客户 端 连接 以 保证 没有 长 时 间 运 行 的 语句 或 者 未 提交 的 事务 。 

3. 在 主动 服务 器 上 执行 SHOW MASTER STATUS 并 记录 二 进 制 日 志 坐 标 。 

4. 使 用 主动 服务 器 上 的 二 进 制 日 志 坐 标 在 被 动 服务 器 上 执行 SELECT 
MASTER_POS_WAIT (0) 。 该 语句 将 阻塞 住 ， 直 到 复制 跟 上 主动 服务 
aes 

5. 在 被 动 服务 器 上 执行 SET GLOBAL read_only=0， 这 样 就 变换 成 主动 
服务 器 。 

6. 修改 应 用 的 配置 ， 使 其 写 入 到 新 的 主动 服务 器 中 。 





可 能 还 需要 做 一 些 额 外 的 工作 ， 包 括 更 改 两 台 服 务 器 的 耳 地 址 ， 这 
取决 于 应 用 的 配置 ， 我 们 将 在 下 一 节 讨论 这 个 话题 。 


10.7 复制 的 问题 和 解决 方案 


中 断 MySQL 的 复制 并 不 是 件 难事 。 因 为 实现 简单 ， 配 置 相当 容 
易 ， 但 也 意味 着 有 很 多 方式 会 导致 复制 停止 ， 陷 入 混乱 并 中 断 。 本 章 描 
述 了 一 些 比 较 普 过 的 问题 ， 讨 论 如 何 重 现 这 些 问题 ， 以 及 当 遇 到 这 些 问 
题 时 如 何 解决 或 者 阻止 其 发 生 。 


10.7.1 数据 损坏 或 丢失 的 错误 


由 于 各 种 各 样 的 原因 ，MySQL 的 复制 并 不 能 很 好 地 从 服务 器 月 
涡 、 掉 电 、 和 磁盘 损坏 、 内 存 或 网 络 错误 中 恢复 。 遇 到 这 些 问题 时 几乎 可 
以 肯定 都 需要 从 某 个 点 开始 重启 复制 。 


























大 部 分 由 于 非 正 第 天 机 后 导致 的 复制 问题 都 是 由 于 没有 把 数据 及 时 
地 刷 到 磁盘 。 下 面 是 意外 关闭 服务 器 时 可 能 会 碰 到 的 情况 。 





主 库 意 外 关闭 





如 果 没 有 设置 主 库 的 sync_binlog 选 项 ， 就 可 能 在 有 崩 尝 前 没有 
将 最 后 的 几 个 二 进 制 日 志 事 件 刷新 到 磁盘 中 。 备 库 IO 线 程 因 此 也 
可 一 直 处 于 读 不 到 尚未 写 入 磁盘 的 事件 的 状态 中 。 当 主 库 重 新 启动 
时 ， 备 库 将 重 连 到 主 库 并 再 次 尝试 去 读 该 事件 ， 但 主 库 会 告诉 备 库 
没有 这 个 二 进 制 日 志 偏 移 量 。 二 进 制 日 志 转 储 线程 通常 很 快 ， 因 此 
这 种 情况 并 不 经 常 发 生 。 




















解决 这 个 问题 的 方法 是 指定 备 库 从 下 一 个 二 进 制 日 志 的 开头 读 





志 。 但 是 一 些 日 志 事 件 将 永久 地 丢失 ， 建 议 使 用 Percona Toolkit 
中 的 pt-table-checksum 工 具 来 检查 主 备 一 致 性 ， 以 便于 修复 。 可 以 
通过 在 主 库 开 局 sync_b inlog 来 避免 事件 丢失 。 


即使 开启 了 sync_binlog，MyISAM 表 的 数据 仍然 可 能 在 朋 尝 
的 时 候 损坏 ， 对 于 InnoDB 事 务 ， 如 果 
innodb flush log at trx commit 没 有 设 为 1， 也 可 能 丢失 数 据 
《但 数据 不 会 损坏 ) 。 


备 库 意 外 关闭 





当 备 库 在 一 次 非 计划 中 的 关闭 后 重启 时 ， 会 去 读 master.info 文 
件 以 找到 上 次 停止 复制 的 位 置 。 不 六 的 是 ， 访 文件 并 没有 同步 写 到 
磁盘， 文件 中 存储 的 信息 可 能 是 错误 的 。 备 库 可 能 会 尝试 重新 执行 
一 些 二 进 制 日 志 事 件 ， 这 可 能 会 导致 唯一 索引 错误 。 除 非 能 确定 备 
库 在 哪里 停止 (通常 不 太 可 能 ) ， 人 否则 唯一 的 办 法 就 是 忽略 那些 错 
误 。Percona Toolkit 中 的 pt-slave-restart 工 具 可 以 帮助 完成 这 一 点 。 





如 果 使 用 的 都 是 InnoDB 表 ， 可 以 在 重 局 后 观察 MySQL 错 误 日 
志 。InnoDB 在 恢复 过 程 中 会 打印 出 它 的 恢复 点 的 二 进 制 日 志 坐 
标 。 可 以 使 用 这 个 值 来 决定 备 库 指 回 主 库 的 偏 移 量 。Percona Server 
提供 了 一 个 新 的 特性 ， 可 以 在 恢复 的 过 程 中 自动 将 这 些 信 息 提 取出 
来 ， 并 更 新 master.inf 文 件 ， 从 根本 上 使 得 复制 能 够 协调 好 备 库 上 
的 事务 。MySQL 5.5 也 提供 了 一 些 选项 来 控制 如 何 将 master.info 和 
其 他 文件 刷新 到 磁盘 ， 这 有 助 于 减少 这 些 问题 。 














除了 由 于 MySQL 非 正 第 关闭 导 致 的 数据 丢失 外 ， 磁 盘 上 的 二 进 制 
日 志 或 中 继 日 志文 件 损坏 并 不 罕见 。 下 面 是 一 些 更 普遍 的 场景 : 





主 库 上 的 二 进 制 日 志 损 坏 


如 果 主 库 上 的 三 进 制 日 志 损 坏 ， 除 了 忽略 损坏 的 位 置 外 你 别 无 
选择 。 可 以 在 主 库 上 执行 FLUSH L0GS 命 令 ， 这 样 主 库 会 开始 一 个 新 
的 日 志文 件 ， 然 后 将 备 库 指 向 该 文件 的 开始 位 置 。 也 可 以 试 着 去 发 
现 损 坏 区 域 的 结束 位 置 。 某 些 情况 下 可 以 通过 SET GLOBAL 
SQL_SLAVE_SKIP_COUNTER = 1 来 忽略 一 个 损坏 的 事件 。 如 果 有 多 个 
损坏 的 事件 ， 就 需要 重复 该 步 又， 直到 跳 过 所 有 损坏 的 事件 。 但 如 
果 有 太 多 的 损坏 事件 ， 这 么 做 可 能 就 没有 意义 了 。 损 坏 的 事件 头 会 
阻止 服务 器 找到 下 一 个 事件 。 这 种 情况 下 ， 可 能 不 得 不 手动 地 去 找 
到 下 一 个 完好 的 事件 。 











备 库 上 的 中 继 日 志 损 坏 


如 果 主 库 上 的 日 志 是 完好 的 ， 就 可 以 通过 CHANGE MASTER T0 命 
令 丢 弃 并 重新 获取 损坏 的 事件 。 只 需要 将 备 库 指 癌 它 当 前 正在 复制 
的 位 置 (Relay_Master_Log File/Exec Master_Log Pos) 。 这 会 
导致 备 库 丢弃 所 有 在 磁盘 上 的 中 继 日 志 。 就 这 一 点 而 言 ， MySQL 
5.5 做 了 一 些 改进 ， 它 能 够 在 月 尝 后 自动 重新 获取 中 继 日 志 。 














二 进 制 日 志 与 1nnoDB 事 务 日 志 不 同步 





当主 库 朋 尝 时 ，InnoDB 可 能 将 一 个 事务 标记 为 已 提交 ， 此 时 
该 事务 可 能 还 没有 记录 到 二 进 制 日 志 中 。 除 非 是 某 个 备 库 的 中 继 日 
志 已 经 保存 ， 人 否则 没有 任何 办 法 恢复 丢失 的 事务 。 在 MySQL 5.0 版 
本 可 以 设置 sync_binlog 选 项 来 防止 该 问题 ， 对 于 更 早 的 MySQL 
4.1 可 以 设置 sync_binlog 和 safe_binlog 选 项 。 





当 一 个 二 进 制 日 志 损 坏 时 ， 能 恢复 多 少数 据 取决 于 损坏 的 类 型 ， 有 
几 种 比较 第 见 的 类 型 : 


数据 改变 ， 但 事件 仍 是 有 效 的 SQL 


不 笠 的 是 ，MySQL 甚 至 无 法 察觉 这 种 损坏 。 因 此 最 好 还 是 经 
常 检查 备 库 的 数据 是 否 正确 。 在 MySQL 未 来 的 版 本 中 可 能 会 被 修 
复 。 


数据 改变 并 且 事件 是 无 效 的 SQL 





这 种 情况 可 以 通过 mysqlbinlog 提 取出 事件 并 看 到 一 些 错乱 的 数 
据 ， 例 如 : 











可 以 通过 增加 偏 移 量 的 方式 来 尝试 找到 下 一 个 事件 ， 这 样 就 可 
以 只 忽略 这 个 损坏 的 事件 。 


数据 遗 汤 并 且 / 或 者 事件 的 长 度 是 错误 的 





这 种 情况 下 ，mysqlbinlog 可 能 会 发 生 错 误 退 出 或 者 直接 朋 尝 ， 
因为 它 无 法 读 取 事件 ， 并 且 找 不 到 下 一 个 事件 的 开始 位 置 。 


某 些 事件 已 经 损坏 或 被 履 盖 ， 或 者 偏 移 量 已 经 改变 并 且 下 一 个 
事件 的 起 始 偏 移 量 也 是 错误 的 


同样 的 ， 这 种 情况 下 mysqlbinlog 也 起 不 了 多 少 作 用 。 


当 损 坏 非常 严重 ， 通 过 mysqlbinlog 已 经 无 法 获取 日 志 事 件 时 ， 就 不 


FAN EAT ETN HE Ti Fp BS IB OR RB A SSE 
ADF. ATIF AN AME, LAA HEY PH AY es i ae oP SE 








如 下 例 所 示 ， 首 先 使 用 mysqlbinlog 找 到 样 例 日 志 的 日 志 事 件 偏 移 


mr 


mysqlbinlog mysql-bin.000113 | egrep '^# at ' 
at 4 

at 98 

at 185 

at 277 


at 369 


t + E + +E HF 8 


at 447 


ARR H a es E EE E IA AE R F stringi e a h 
的 偏 移 量 


$ strings -n 2 -t d mysql-bin.000113 
1 binpC'G 
25 5.0.38-Ubuntu_Oubuntu1.1-log 
99 C'G 
146 std 
156 test 
161 create table test(a int) 
186 C'G 
233 std 
243 test 


248 insert into test(a) values(1) 


278 C'G 

325 std 

335 test 

340 insert into test(a) values(2) 
370 C'G 

417 std 

427 test 

432 drop table test 

448 D'G 

474 mysql-bin.000114 


有 一 些 可 辨别 的 模式 可 以 帮助 定位 事件 的 开头 ， 注 意 以 'G 结 尾 的 字 
符 串 在 日 志 事件 开头 的 一 个 字 节 后 的 位 置 。 它 们 是 固定 长 度 的 事件 头 的 


一 部 分 。 














这 些 值 因 服 务 器 而 异 ， 因 此 结果 也 可 能 取决 于 解析 的 日 志 所 在 的 服 
务 器 。 简 单 地 分 析 后 应 该 能 够 从 二 进 制 日 志 中 找到 这 些 模式 并 找到 下 一 
个 完整 的 日 志 事 件 偏 移 量 。 然 后 通过 mysqlbinlog 的 --start-position 选 项 来 
跳 过 损坏 的 事件 ， 或 者 使 用 CHANGE MASTER TO 命令 的 MASTER_L0G_P0S 参 
数 。 


10.7.2 ”使 用 非 事务 型 表 


如 果 一 切 正 常 ， 基 于 语句 的 复制 通常 能 够 很 好 地 处 理 非 事务 型 表 。 
但 是 当 对 非 事 务 型 表 的 更 新 发 生 错 误 时 ， 例 如 查询 在 完成 前 被 kl， 就 
可 能 导致 主 库 和 备 库 的 数据 不 一 致 。 











BIEN, (Bee Et —SMyISAMR IN 10077 Bt, er ED ETB 
中 50 条 时 有 人 kil 该 得 询 ， 会 发 生 什 么 呢 ? PRENET, Mma 
半 则 没有 ， 结 果 是 复制 必然 不 同步 ， 因 为 该 查询 会 在 备 库 重 放 并 更 新 完 
100 行 数据 〈MyYSQL 随 后 会 在 主 库 上 发 现 碍 询 引 起 的 错误 ， 而 备 库 上 则 
没有 报错 ， 此 后 复制 将 会 发 生 错误 并 中 断 ) 。 








如 果 使 用 的 是 MyISAM 表 ， 在 关闭 MySQL 之 前 需要 确保 已 经 运行 了 
STOP  SLAVE， 和 否则 服务 器 在 关闭 时 会 kill 所 有 正在 运行 的 查询 〈 包 括 
没有 完成 的 更 新 ) 。 事 务 型 存储 引 警 则 没有 这 个 问题 。 如 果 使 用 的 是 事 
务 型 表 ， 失 败 的 更 新 会 在 主 库 上 回 滚 并 且 不 会 记录 到 二 进 制 日 志 中 。 


10.7.3 ”混合 事务 型 和 非 事 务 型 表 
如 果 使 用 的 是 事务 型 存储 引擎 ， 只 有 在 事务 提交 后 才 会 将 查询 记录 


到 二 进 制 日 志 中 。 因 此 如 果 事 务 回 滚 ，MySQL 就 不 会 记录 这 条 奏 询 ， 
也 就 不 会 在 备 库 上 重 放 。 




















但 是 如 果 混 合 使 用 事务 型 和 非 事务 型 表 ， 并 且 发 生 了 一 次 回 滚 ， 
MySQL 能 够 回 深 事 务 型 表 的 更 新 ， 但 非 事务 型 表 则 被 永久 地 更 新 了 。 
只 要 不 发 生 类 似 和 查询 中 途 被 ki 这 样 的 错误 ， 这 就 不 是 问题 : MySQL 此 
时 会 记录 该 查询 并 记录 一 条 ROLLBACK 语 名 到 日 志 中 。 结 果 是 同样 的 
语句 也 在 备 库 执行 ， 所 有 的 都 很 正常 。 这 样 效率 会 低 一 点 ， 因 为 备 库 需 
要 做 一 些 工 作 并 且 最 后 再 把 它们 丢弃 掉 。 但 理论 上 能 够 保证 主 备 的 数据 
一 致 。 














目前 看 来 一 切 很 下 第 。 但 是 如 末 备 库 友 生死 锁 而 主 库 没有 也 可 能 会 
导致 问题 。 事 务 型 表 的 更 新 会 被 回 深 ， 而 非 事务 型 表 则 无 法 回 演 ， 此 时 





备 库 和 主 库 的 数据 是 不 一 致 的 。 


防止 该 问题 的 唯一 办 法 是 避免 混合 使 用 事务 型 和 非 事 务 型 表 。 如 来 
直到 这 个 问题 ， 唯 一 的 解决 办 法 是 忽略 错误 ， 并 重新 同步 相关 的 表 。 














基于 行 的 复制 不 会 受 这 个 问题 的 影响 。 因 为 它 记 录 的 是 数据 的 更 
改 ， 而 不 是 SQL 语句 。 如 果 一 条 语句 改变 了 一 个 MyISAM 表 和 一 个 
InnoDB 表 的 某 些 行 ， 然 后 主 库 上 友 生 了 一 次 死 锁 ，InnoDB 表 的 更 新 会 
被 回 滚 ， 而 MYISAM 表 的 更 新 仍 会 被 记录 到 日 志 中 并 在 备 库 重 放 。 


10.7.4 不 确定 语句 


当 使 用 基于 语句 的 复制 模式 时 ， 如 果 通 过 不 确定 的 方式 更 改 数据 可 
能 会 导致 主 备 不 一 致 。 例 如 ， 一 条 带 LIMIT 的 UPDATE 语 名 更 改 的 数据 取 
诀 于 碍 找 行 的 顺序 ， 除 非 能 保证 主 库 和 备 库 上 的 顺序 相同 。 人 例如， 知行 
根据 主键 排序 ， 一 条 得 询 可 能 在 主 库 和 备 库 上 更 新 不 同 的 行 ， 这 些 问 题 
非常 微妙 并 且 很 难 注意 到 。 所 以 一 些 人 禁止 对 那些 会 更 新 数据 的 语句 使 
用 LIMIT。 另 外 一 种 不 确定 的 行为 是 在 一 个 拥有 多 个 唯一 索引 的 表 上 使 
用 REPLACE 或 者 INSERT ”1GNORE 语 句 MySQL 在 主 库 和 备 库 上 可 能 会 
选择 不 同 的 索引 。 














另外 还 要 注意 那些 涉及 INFORMAT10N_SCHEMA 表 的 语句 。 它 们 很 容易 
在 主 库 和 备 库 上 产生 不 一 致 ， 其 结果 也 会 不 同 。 最 后 ， 需 要 注意 许多 系 
统 变 量 ， 例 如 @@server_id 和 @@hostname， 在 MySQL ”5.1 之 前 无 法 正确 
地 复制 。 














基于 行 的 复制 则 没有 上 述 限 制 。 


10.7.5 ” 主 库 和 备 库 使 用 不 同 的 存储 引 


学 


正如 本 章 之 前 提 到 的 ， 在 备 库 上 使 用 不 同 的 存储 引擎 ， 有 时 候 可 以 
市 来 好 处 。 但 是 在 一 些 场 景 下 ， 当 使 用 基于 语句 的 复制 方式 时 ， 如 果 备 
库 使 用 了 不 同 的 存储 引擎 ， 则 可 能 造成 一 条 查询 在 主 库 和 备 库 上 的 执行 
结果 不 同 ， 例 如 不 确定 语句 如 前 一 小 节 提 到 的 〉 在 主 备 库 使 用 不 同 的 
存储 引擎 时 更 容易 导致 问题 。 

















如 果 发 现 主 库 和 备 库 的 某 些 表 已 经 不 同步 ， 除 了 检查 更 新 这 些 表 的 
碍 询 外， 还 需要 检查 两 台 服 务 堪 上 使 用 的 存储 引擎 是 否 相 同 。 


10.7.6 ” 备 库 发 生 数 据 改变 


基于 语句 的 复制 方式 前 提 是 确保 备 库 上 有 和 主 库 相同 的 数据 ， 因 此 
不 应 该 允许 对 备 库 数 据 的 任何 更 改 〈 比 较 好 的 办 法 是 设置 read_only 选 
项 ) 。 假 设 有 如 下 语句 : 








mysql> INSERT INTO table1 SELECT * FROM table2; 


如 果 备 库 上 table2 的 数据 和 主 库 上 不 同 ， 该 语句 会 导致 table1 的 数 
据 也 会 不 一 致 。 换 名 话说 ， 数 据 不 一 致 可 能 会 在 表 之 间 传 播 。 不 仅仅 
FE INSERT. ..... SELECT 得 询 ， 所 有 类 型 的 查询 都 可 能 发 生 。 有 两 种 可 能 
的 结果 : 备 库 上 发 生 重复 索引 键 冲 突 错误 或 者 根本 不 提示 任何 错误 。 如 
果 能 报告 错误 还 好 ， 起 码 能 够 提示 你 主 备 数据 已 经 不 一 致 。 无 法 察觉 的 
不 一 致 可 能 会 悄 无 声息 地 导致 各 种 严重 的 问题 。 





唯一 的 解决 办 法 就 是 重新 从 主 库 同步 数据 。 
10.7.7 不 唯一 的 服务 器 ID 


这 种 问题 更 加 难以 捉摸 。 如 果 不 小 心 为 两 台 备 库 设 置 了 相同 的 服务 
器 ID， 看 起 来 似乎 没有 什么 问题 ， 但 如 果 查 看 错误 日 志 ， 或 者 使 
用 innotop 查 看 主 库 ， 可 能 会 看 到 一 些 古 怪 的 信息 。 


在 主 库 上 ， 会 发 现 两 台 备 库 中 只 有 一 台 连 接 到 主 库 (通常 情况 下 所 
有 的 备 库 都 会 建 并 连接 以 等 待 随 时 进行 复制 》。 在 备 库 的 错误 日 志 中 ， 
则 会 发 现 反复 的 重 连 和 连接 断 开 信息 ， 但 不 会 提 及 补 错 误 配 置 的 服务 露 
ID. 








MySQL 可 能 会 缓慢 地 进行 正确 的 复制 ， 也 可 能 无 法 进行 正确 复 
制 ， 这 取决 于 MySQL 的 版 本 ， 给 定 的 备 库 可 能 会 丢失 二 进 制 日 志 事 
件 ， 或 者 重复 执行 事件 ， 导 致 重复 键 错误 《或 者 不 可 见 的 数据 损坏 ) 。 
也 可 能 因为 备 库 的 互相 竞争 造成 主 库 的 负载 升 高 。 如 果 备 库 苋 争 非常 激 
烈 ， 会 导致 错误 日 志 在 很 短 的 时 间 内 急剧 增 大 。 


唯一 的 解决 办 法 是 小 心 设置 备 库 的 服务 器 ID。 一 个 比较 好 的 办 法 是 
创建 一 个 主 库 到 备 库 的 服务 器 ID 映射 表 ， 这 样 吏 可 以 跟踪 到 备 库 的 ID 信 
息 呈 。 如 果 备 库 全 在 一 个 子 网 络 内 ， 可 以 将 每 台 机 器 耳 的 后 八 位 作为 唯 
一 ID。 


10.7.8 RE XIRI FID 


如 果 没 有 在 my.cnf 里 定义 服务 器 ID， 可 以 通过 CHANGE MASTER TO 来 
设置 备 库 ， 但 却 无 法 启动 复制 : 





mysql> START SLAVE; 
ERROR 1200 (HY000): The server is not configured as slave; fi 


CHANGE MASTER TO 


这 个 报错 可 能 会 让 人 困惑 ， 因 为 刚刚 执行 CHANGE MASTER T0 设 置 了 
备 库 ， 并 且 通 过 SHOW MASTER STATUS 也 确认 了 。 执 行 SELECT 
6@@server_id 也 可 以 获得 一 个 值 ， 但 这 只 是 默认 值 ， 必 须 为 备 库 显 式 地 
设置 服务 器 ID。 


10.7.9 ”对 未 复制 数据 的 依赖 性 


如 傈 在 主 库 上 有 备 库 不 存在 的 数据 库 或 表 ， 复 制 会 很 容易 意外 中 
断 ， 反 之 亦 然 。 假 设 主 库 上 有 一 个 备 库 不 存在 的 数据 库 ， 命 名 
为 scratch。 如 果 在 主 库 上 发 生 对 该 数据 库 中 表 的 更 新 ， 备 库 会 在 尝试 
重 放 这 些 更 新 时 中 断 。 同 样 的 ， 如 果 在 主 库 上 创建 一 个 备 库 上 已 存在 的 
表 ， 复 制 也 可 能 中 断 。 

















没有 什么 好 的 解决 办 法 ， 唯 一 的 办 法 就 是 避免 在 主 库 上 创建 备 库 上 
没有 的 表 。 


这 样 的 表 是 如 何 创建 的 呢 ? 有 很 多 可 能 的 方式 ， 其 中 一 些 可 能 更 难 
防范 。 例 如 ， 假 设 先 在 备 库 上 创建 一 个 数据 库 scratch， 该 数据 库 在 主 
库 上 不 存在 ， 然 后 因为 茶 些 原因 切换 了 主 备 。 当 完成 这 些 后 ， 可 能 瑟 记 
了 移 除 scratch 数 据 库 以 及 它 的 权限 。 这 时 候 一 些 人 束 可 以 连接 到 该 数 








据 库 并 执行 一 些 查询 ， 或 者 一 些 定期 的 任务 会 发 现 这 些 表 ， 并 在 每 个 表 
上 执行 OPTIMIZE TABLE 命 令 。 





当 提 升 备 库 为 主 库 时 ， 或 者 决定 如 何 配置 备 库 时 ， 需 要 注意 这 一 
点 。 任 何 导致 主 备 不 同 的 行为 都 会 产生 潜在 的 问题 。 


10.7.10 ERKINI K 
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式 是 不 相 容 的 。 如 果 备 库 裔 溃 或 者 正常 关闭 ， 任 何 复制 线程 拥有 的 临时 
表 都 会 丢失 。 重 启 备 库 后 ， 所 有 依赖 于 该 临时 表 的 语句 都 会 失败 。 








当 基 于 语句 进行 复制 时 ， 在 主 库 上 并 没有 安全 使 用 临时 表 的 方法 。 
许多 人 确实 很 喜欢 临时 表 ， 所 以 很 难 去 说 服 他 们 ， 但 这 是 不 可 否认 的 
CD, 不管 它们 的 存在 多 么 短暂 ， 都 会 使 得 备 库 的 启动 和 停止 以 及 骨 演 
恢复 变 得 困难 ， 即 使 是 在 一 个 事务 内 使 用 也 一 样 。《〈 如 果 在 备 库 使 用 临 
时 表 可 能 问题 会 少 些 ， 但 如 宋 备 库 本 号 也 是 一 个 主 库 ， 问 题 依然 存 
fEo ) 
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事情 : 可 以 直接 跳 过 错误 ， 或 者 手动 地 创建 一 个 名 字 和 结构 相同 的 表 来 
代 蔡 消失 的 临时 表 。 不 管用 什么 办 法 ， 如 果 写 入 碍 询 依赖 于 临时 表 ， 都 

可 能 造成 数据 不 一 致 。 





避免 使 用 临时 表 没 有 看 起 来 那么 难 ， 临 时 表 主 要 有 两 个 比较 有 用 的 
特性 : 


。 只 对 创建 临时 表 的 连接 可 见 。 所 以 不 会 和 其 他 拥有 相同 名 字 临 时 表 


的 连接 起 冲突 。 
。 随 着 连接 关闭 而 消失 ， 所 以 无 须 显 式 地 移 除 它们 。 


可 以 保留 一 个 专用 的 数据 库 ， 在 其 中 创建 持久 表 ， 把 它们 作为 伪 临 
时 表 ， 以 模拟 这 些 特性 。 只 需要 为 它们 选择 一 个 唯一 的 名 字 。 还 好 这 很 
容易 做 到 : 简单 地 将 连接 ID 拼接 到 表 名 之 后 。 例 如 ， 之 前 创建 临时 表 的 
语句 为 : CREATE TEMPORARY TABLE top_users(...)， 现 在 则 可 以 执 
行 CREATE TABLE temp. top_users 1234(...), #4123472 
数 CONNECTION_1D 0 的 返回 值 。 当 应 用 不 再 使 用 该 伪 临 时 表 后 ， 可 以 将 
其 删除 或 使 用 一 个 清理 线程 来 将 其 移 除 。 表 名 中 使 用 连接 ID 可 以 用 于 确 
定 哪些 表 不 再 被 使 用 一 一 可 以 通过 SHOW PROCESSL1ST 命 令 来 获得 活跃 连 
接 列 表 ， 并 将 其 与 表 名 中 的 连接 ID 相 比较 2。 





使 用 实体 表 而 非 临 时 表 还 有 别 的 好 处 。 例 如 ， 能 够 帮助 你 更 容易 调 
试 应 用 程序 ， 因 为 可 以 通过 别 的 连接 来 查看 应 用 正在 维护 的 数据 。 如 果 
使 用 的 是 临时 表 ， 可 能 就 没 这 么 容易 做 到 。 


但 是 实体 表 可 能 会 比 临时 表 多 一 些 开 销 ， 例 如 创建 会 更 慢 ， 因 为 为 
这 些 表 分 配 的 .frm 文 件 需 要 刷新 到 磁盘 。 可 以 通过 禁止 sync_frm 选 项 来 
加 速 ， 但 这 可 能 会 导致 潜在 的 风险 。 


如 果 确 实 需要 使 用 临时 表 ， 也 应 该 在 关闭 备 库 前 确保 
Slave_open_temp_tables 状 态 变 量 值 为 0。 如 果 不 是 0， 在 重启 备 库 后 就 
可 能 会 出 现 问题 。 合 适 的 流程 是 执行 STOP SLAVE， 检 查 变 量 ， 然 后 再 
关闭 备 库 。 如 果 在 停止 复制 前 检查 变量 ， 可 能 会 发 生 范 争 条 件 的 风险 。 


10.7.11 不 复制 所 有 的 更 新 








如 果 错 误 地 使 用 SET ”SQL_L0G_BIN=0 或 者 没有 理解 过 滤 规 则 ， 备 库 
可 能 会 丢失 主 库 上 已 经 发 生 的 更 新 。 有 时 候 希 望 利 用 此 特性 来 做 归档 ， 
但 第 第 会 寻 臻 意外 并 出 现 不 好 的 结果 。 





例如 ,假设 设置 了 replicate_do_db 规 则 ， 把 saki1a 数 据 库 的 数据 
复制 到 某 一 台 备 库 上 。 如 果 在 主 库 上 执行 如 下 语句 ， 会 导致 主 备 数据 不 
一 致 : 


mysql> USE test; 


mysql> UPDATE sakila.actor ... 


其 他 类 型 的 语句 甚至 会 因为 没有 复制 依赖 导致 备 库 复制 抛 出 错误 而 
失败 。 


10.7.12 InnoDB 加 锁 读 引起 的 锁 争 用 


正常 情况 下 ，InnoDB 的 读 操作 是 非 阻 塞 的 ， 但 在 某 些 情况 下 需要 
加 锁 。 特 别 是 在 使 用 基于 语句 的 复制 方式 时 ， 执 行 1NSERT. . . SELECT 操 
作 会 锁定 源 表 上 的 所 有 行 。MySQL 需 要 加 锁 以 确保 该 语句 的 执行 结 
在 主 库 和 备 库 上 是 一 致 的 。 实 际 上 ， 加 锁 导 致 主 库 上 的 语句 串 行 化 ， 以 
确保 和 备 库 上 执行 的 方式 相符 。 





这 种 设计 可 能 导致 锁 竞 争 、 阻 塞 ， 以 及 锁 等 竺 超时 等 情况 。 一 种 组 
解 的 办 法 残 是 避免 让 事务 开局 太 久 以 减少 阻 窒 。 可 以 在 主 库 上 尽快 地 所 
交 事 务 以 释放 锁 。 


把 大 命令 拆 分 成 小 命令 ， 使 其 尽 可 能 简短 。 这 也 是 一 种 减少 锁 竞 争 
的 有 效 方法 。 即 使 有 时 很 难 做 到 ， 但 也 是 值得 的 〈 使 用 Percona Toolkit 


中 的 ptarchiver 工 具 会 很 简单 ) 。 


另 一 种 方法 是 替换 掉 INSERT. . . SELECT 语句 ， 在 主 库 上 先 执 
行 SELECT INTO OUTFILE， 再 执行 LOAD DATA INFILE。 这 种 方法 更 快 ， 
并 且 不 需要 加 锁 。 这 种 方法 很 特殊 ， 但 有 时 还 是 有 用 的 。 最 大 的 问题 是 
为 输出 文件 选择 一 个 唯一 的 名 字 ， 并 在 完成 后 清理 挥 文件 。 可 以 通过 之 
前 讨论 过 的 CONNECTION_1D () 来 保证 文件 名 的 唯一 性 ， 并 且 可 以 使 用 定 
时 任务 CUNIX 的 crontab，Windows 平 台 的 计划 任务 ) 在 连接 不 再 使 用 
这 些 文件 后 进行 自动 清理 。 





也 可 以 尝试 关闭 上 面 的 这 种 锁 机 制 ， 而 不 是 使 用 上 面 的 变通 方法 。 
有 一 种 方法 可 以 做 到 ， 但 在 大 多 数 场景 下 并 不 是 好 办 法 ， 备 库 可 能 会 在 
不 知 不 党 间 就 失去 和 主 库 的 数据 同步 。 这 也 会 导致 在 做 恢复 时 二 进 制 日 
志 变 得 曼 无 用 处 。 但 如 果 确 实 沉 得 这 么 做 的 利 大 于 弊 ， 可 以 使 用 下 面 的 
办 法 来 关闭 这 种 锁 机 制 : 











# THIS IS NOT SAFE! 


innodb_locks_unsafe_for_binlog = 1 


这 使 得 得 询 的 结果 所 依赖 的 数据 不 再 加 锁 。 如 果 第 二 条 得 询 修改 了 
数据 并 在 第 一 条 碍 询 之 前 先 提 交 。 在 主 库 和 备 库 上 执行 这 两 条 语句 的 结 
果 可 能 不 相同 。 对 于 复制 和 基于 时 间 点 的 恢复 都 是 如 此 。 








为 了 了 解锁 定 读 取 是 如 何 防 止 混 乱 的 ， 假 设 有 两 张 表 : 一 个 没有 数 
据 ， 另 一 个 只 有 一 行 数据 ， 值 为 99。 有 两 个 事务 更 新 数据 。 事 务 1 将 第 
二 张 表 的 数据 插入 到 第 一 张 表 ， 事 务 2 更 新 第 二 张 表 ( 源 表 ) ， 如 图 10- 
16 所 示 。 
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图 10-16: 两 个 事务 更 新 数据 ， 使 用 共享 锁 串 行 化 更 新 








第 二 步 非常 重要 ， 事 务 2 答 试 去 更 新 源 表 ， 这 需要 在 更 新 的 行 上 加 
排他 锁 《〈 写 锁 ) 。 排 他 锁 与 其 他 锁 是 不 相 容 的 ， 包 括 事务 1 在 行 记录 上 
加 的 共 至 锁 。 因 此 事务 2 需要 等 待 直到 事务 1 完成 。 事 务 按照 其 提交 的 顺 
序 在 二 进 制 日 志 中 记录 ， 所 以 在 备 库 重 放 这 些 事务 时 产生 相同 的 结 

















但 从 男 一 方面 来 说 ， 如 果 事 务 1 没有 在 读 取 的 行 上 加 共 至 锁 ， 丈 无 
法 保证 了 。 图 10-17 显 示 了 在 没有 锁 的 情况 下 可 能 的 事件 序列 。 
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图 10-17: 两 个 事务 更 新 数据 ， 但 未 使 用 共享 锁 来 串 行 化 更 新 








如 宁 疫 有 加 锁 ， 记 录 在 日 志 中 的 事务 顺序 在 主 备 上 可 能 会 产生 不 同 
的 结果 。MySQL 会 先 记 录 事 务 2， 这 会 影响 到 事务 1 在 备 库 上 的 结果 ， 
而 主 库 上 则 不 会 发 生 ， 从 而 导致 了 主 备 的 数据 不 一 致 。 





我 们 强烈 建议 在 大 多 数 情况 下 将 innodb_locks_unsafe_for_binlog 
的 值 设 置 为 0。 基 于 行 的 复制 由 于 记录 了 数据 的 变化 而 非 语 句 ， 因 此 不 
会 存在 这 个 问题 。 





10.7.13 ”在 主 - 主 复制 结构 中 写 入 两 人 台 
EJE 
试图 回 两 台 主 库 写 入 并 不 是 一 个 好 主意 。 如 果 同 时 还 希望 安全 地 写 


入 两 台 主 库 ， 会 碰 到 很 多 问题 ， 有 些 问题 可 以 解决 ， 有 些 则 很 难 。 一 个 
专业 人 员 可 能 需要 经 历 大 量 的 教训 才能 明日 其 中 的 不 同 。 








在 MySQL 5.0 中 ， 有 两 个 变量 可 以 用 于 帮助 解决 AUTO_1NCREMENT H 
增 主键 冲突 的 问题 : auto_increment_ increment 和 
auto_increment_offset。 可 以 通过 设置 这 两 个 变量 来 错开 主 库 和 备 库 
生成 的 数字 ， 这 样 可 以 避免 自 增 列 的 冲突 。 





但 是 这 并 不 能 解决 所 有 由 于 同时 写 入 两 台 主 库 所 带 来 的 问题 ， 目 增 
问题 只 是 其 中 的 一 小 部 分 。 而 且 这 种 做 法 也 融 来 了 一 些 新 的 问题 : 


。 很 难 在 复制 拓扑 间 做 故障 转移 。 

。 由 于 在 数字 之 间 出 现 间 际 ， 会 引起 键 空间 的 浪费 。 

。 只 有 在 使 用 了 AUTO_INCREMENT 主 键 的 时 候 才 有 用 。 有 时 候 使 
用 AUTO_INCREMENT 列 作为 主键 并 不 总 是 好 主意 。 











你 也 可 以 自己 来 生成 不 冲突 的 主键 值 。 一 种 办 法 是 创建 一 个 多 个 列 
的 主键 ， 第 一 列 使 用 服务 器 ID 值 。 这 种 办 法 很 好 ， 但 却 使 得 主键 的 值 变 
得 更 大 ， 会 对 InnoDB 二 级 索引 键 值 产生 多 重 影 啊 。 





也 可 以 使 用 只 有 一 列 的 主键 ， 在 主键 的 高 字 节 位 存储 服务 器 ID。 简 
单 的 左 移 位 (除法 ) 和 加 法 就 可 以 实现 。 例 如 ， 使 用 的 是 无 符号 
BIGINT C64) 的 高 8 位 来 保存 服务 器 ID， 可 以 按照 如 下 方法 在 服务 器 
15 上 插入 值 11; 





mysql> INSERT INTO test(pk_col, ...) VALUES((15 << 56) + 11, 


OUR AE a RR RA E, FPR 64 tie, KIR w M 2 


Jl: 


mysql> SELECT LPAD(CONV(pk_col, 10, 2), 64, '0') FROM test; 


+------------------------------------------------------------------+ 
+------------------------------------------------------------------+ 


+------------------------------------------------------------------+ 


该 方 法 的 缺点 是 需要 额外 的 方式 来 产生 键 值 ， 因 为 AUTO_1NCREMENT 
无 法 做 到 这 一 点 。 不 要 在 INSERT 语 句 中 将 常量 15 蔡 换 为 @@server_id， 
因为 这 可 能 在 备 库 产生 不 同 的 结果 。 


还 可 以 使 用 MD5 O 或 UU1D 0 等 函数 来 获取 伪 随 机 数 ， 但 这 样 做 性 能 
可 能 会 很 差 ， 因 为 它们 产生 的 值 较 大 ， 并 且 本 质 上 是 随机 的 ， 这 尤其 会 
tpi 《除非 是 在 应 用 中 产生 值 ， 否 则 不 要 使 用 UUID 0) ， 因 为 
于 语句 的 复制 模式 下 UUID O 不 能 正确 复制 ) 





这 个 问题 很 难 解 决 ， 我 们 通常 推荐 重 构 应 用 程序 ， 以 保证 只 有 一 个 
主 库 是 可 写 的 。 谁 能 想得到 呢 ? 


10.7.14 ”过 大 的 复制 延 返 


复制 延迟 是 一 个 很 普 所 的 问题 。 不 管 怎 么 样 ， 最 好 在 设计 应 用 程序 
时 能 够 让 其 容忍 备 库 出 现 延迟 。 如 时 系 统 在 备 库 出 现 延 退 时 就 无 法 很 好 
地 工作 ， 那 么 应 用 程序 也 许 就 不 应 该 用 到 复制 。 但 是 也 有 一 些 共 法 可 以 
让 备 库 跟 上 主 库 。 





MySQL 单 线程 复制 的 设计 导致 备 库 的 效率 相当 低下 。 即 使 备 库 有 
很 多 磁盘 、CPU 或 者 内 存 ， 也 会 很 容易 落后 于 主 库 。 因 为 备 库 的 单线 程 
通常 只 会 有 效 地 使 用 一 个 CPU 和 磁盘 。 而 事实 上 ， 备 库 通常 都 会 和 主 库 
使 用 相同 配置 的 机 器 








备 库 上 的 锁 同 样 也 是 问题 。 其 他 在 备 库 运 行 的 查询 可 能 会 阻塞 住 复 
制 线程 。 因 为 复制 是 单线 程 的 ， 复 制 线程 在 等 待 时 将 无 法 做 别 的 事情 。 





复制 一 般 有 两 种 产生 延迟 的 方式 : 突然 产生 延迟 然后 再 跟 上 ， 或 者 
稳定 的 延迟 增 大 。 前 一 种 通常 是 由 于 一 条 运行 很 长 时 间 的 碍 询 导 致 的 ， 
而 后 者 即使 在 没有 长 时 间 运 行 的 查询 时 也 会 出 现 。 














不 幸 的 是 ， 目 前 我 们 没 那么 容易 确定 备 库 是 否 接近 其 容量 上 限 。 正 
如 之 前 提 到 的 。 如 宁 有 负载 总 是 保持 均匀 的 ， 备 库 在 负载 达到 99% 时 和 其 
负载 在 10% 的 时 候 表现 的 性 能 相同 ， 但 一 旦 达到 100% 时 就 会 突然 开始 
产生 延迟 。 但 实际 上 负载 不 太 可 能 很 稳定 ， 所 以 当 备 库 接 近 写 容量 时 ， 
就 可 能 在 尖峰 负载 时 看 到 复制 延迟 的 增加 。 





当 备 库 无 法 跟 上 时 ， 可 以 记录 备 库 上 的 查询 并 使 用 一 个 日 志 分 析 工 
具 找 出 哪里 慢 了 。 不 要 依赖 于 上 自己 的 直觉 ， 也 不 要 基于 查询 在 主 库 上 的 
查询 性 能 进行 判断 ， 因 为 主 库 和 备 库 性 能 特征 很 不 相同 。 最 好 的 分 析 办 
法 是 暂时 在 备 库 上 打开 慢 查 询 日 志 记 录 ， 然 后 使 用 第 3 章 讨论 的 pt- 
query-digest 工 具 来 分 析 。 如 果 打 开 了 log_slow_slave_statements 选 
项 ， 在 标准 的 MySQL 慢 查询 日 志 能 够 记录 MySQL 5.1 及 更 新 的 版 本 中 复 
制 线程 执行 的 语句 ， 这 样 就 可 以 找到 在 复制 时 哪些 语句 执行 慢 了 。 
Percona Server 和 MariaDB 人 允许 开局 或 禁止 该 选项 而 无 须 重启 服务 器 。 




















除了 购买 更 快 的 磁盘 和 CPU 《固态 硬盘 能 够 提供 极 大 的 帮助 ， 详 细 
参阅 第 9 章 ) ， 备 库 没 有 太 多 的 调 优 空间 。 大 部 分 选项 都 是 禁止 某 些 额 
外 的 工作 以 减少 备 库 的 负载 。 一 个 简单 的 办 法 是 配置 ImnoDB， 使 其 不 
要 那么 频繁 地 刷新 磁盘 ， 这 样 事务 会 提交 得 更 快 些 。 可 以 通过 设 
置 innodb flush_log at trx_commit 的 值 为 2 来 实现 。 还 可 以 在 备 库 上 
禁止 二 进 制 日 志 记 录 ， 把 innodb_ locks unsafe for binlog 设 置 为 1， 


并 把 MyISAM 的 delay_key_wr ite 设 置 为 ALL。 但 是 这 些 设置 以 牺牲 安全 
换取 速度 。 如 果 需 要 将 备 库 提升 为 主 库 ， 记 得 把 这 些 选 项 设置 回 安全 的 
EE 
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法 。 尝 试 去 最 小 化 系统 中 重复 的 工作 。 任 何 主 库 上 兄 贯 的 写 操作 都 会 在 
每 一 个 备 库 上 重 放 。 如 宁可 以 把 工作 转移 到 备 库 ， 那 么 就 只 有 一 全 备 库 
需要 执行 ， 然 后 我 们 可 以 把 写 的 结果 回 传 到 主 库 ， 例 如 ， 通 过 执行 LOAD 
DATA INFILE. 





这 里 有 个 例子 ， 假 设 有 一 个 大 表 ， 和 需要 汇总 到 一 个 小 表 中 用 于 日 向 
的 操作 : 


mysql> REPLACE INTO main_db.summary_table (coli, col2, ...) 
-> SELECT coli, sum(col2, ...) 


-> FROM main_db.enormous_table GROUP BY coli; 





如 采 在 主 库 上 执行 查询 ， 每 个 备 库 将 同样 需要 执行 庞大 的 GROUP 
BY 查询 。 当 进行 太 多 这 样 的 操作 时 ， 备 库 将 无 法 跟 上 。 把 这 些 工作 转 
移 到 一 台 备 库 上 也 许 会 有 帮助 。 在 备 库 上 创建 一 个 特别 保留 的 数据 库 ， 
用 于 避免 和 从 主 库 上 复制 的 数据 产生 冲突 。 可 以 执行 以 下 查询 : 


mysql> REPLACE INTO summary_db.summary_table (coli, col2, ... 
-> SELECT coli, sum(col2, ...) 


-> FROM main_db.enormous_table GROUP BY coli; 


现在 可 以 执行 SELECT INTO 0UTFILE， 然 后 再 执行 LOAD DATA 
INFILE， 将 结果 集 加 载 到 主 库 中 。 现 在 重复 工作 被 简化 为 LOAD DATA 
INFILE 操 作 。 如 果 有 N 个 备 库 ， 就 节约 了 N-1 次 庞大 的 GROUP BY 操作 。 


该 策略 的 问题 是 需要 处 理 陈旧 数据 。 有 时 候 从 备 库 读 取 的 数据 和 写 
入 主 库 的 数据 很 难保 持 一 致 〈 下 一 章 我 们 会 详细 描述 这 个 问题 )》。 如 果 
难以 在 备 库 上 读 取 数 据 ， 依 然 能 够 简化 并 节省 库 备 工作 。 如 果 分 离 查 询 
的 REPLACE 和 SELECT 部 分 ， 就 可 以 把 结果 返回 给 应 用 程序 ， 然 后 将 其 插 
入 到 主 库 中 。 首 先 ， 在 主 库 执行 如 下 查询 : 











mysql> SELECT coli, sum(col2, ...) FROM main_db.enormous_tabl 





然后 为 结果 集 的 每 一 行 重复 执行 如 下 语句 ， 将 结果 插入 到 汇总 表 
中 


mysql> REPLACE INTO main_db.summary_table (coli, col2, ...) V. 
这 种 方法 再 次 避免 了 在 备 库 上 执行 查询 中 的 GROUP BY 部 分 。 


将 SELECT 和 REPLACE 分 离 后 意味 着 查询 的 SELECT 操作 不 会 在 每 一 台 备 库 
上 重 放 。 








这 种 通用 的 策略 一 一 节约 了 备 库 上 昂贵 的 写 入 操作 部 分 一 一 在 很 多 
情况 下 很 有 帮助 : 计算 查询 的 结果 代价 很 昂贵 ， 但 一 旦 计算 出 来 后 ， 处 
理 就 很 容易 。 





在 复制 之 外 并 行 写 入 


男 一 种 避免 备 库 严重 延迟 的 办 法 是 绕 过 复制 。 任 何在 主 库 的 写 入 操 


作 必 须 在 备 库 串 行 化 。 因 此 有 理由 认为 “ 串 行 化 写 入 ”不 能 充分 利用 资 
源 。 所 有 写 操作 都 应 该 从 主 库 传递 到 备 库 吗 ?如 何 把 备 库 有 限 的 串 行 写 
入 容量 留 给 那些 真正 需要 通过 复制 进行 的 写 入 ? 


这 种 考虑 有 助 于 对 写 入 进行 区 分 。 特 别 是 ， 如 果 能 确定 一 些 写 入 可 
以 轻易 地 在 复制 之 外 执行 ， 就 可 以 并 行 化 这 些 操作 以 利用 备 库 的 写 入 容 


=i 


里 。 











一 个 很 好 的 例子 是 之 前 讨论 过 的 数据 归档 。OLTP 归 档 需 求 通常 是 
简单 的 单行 操作 。 如 果 只 是 把 不 需要 的 记录 从 一 个 表 移 到 为 一 个 表 ， 残 
没有 必要 将 这 些 写 入 复制 到 备 库 。 可 以 禁止 归档 查询 记录 到 二 进 制 日 志 
中 ， 然 后 分 别 在 主 库 和 备 库 上 单独 执行 这 些 归档 查询 。 














目 己 复 制 数据 到 男 外 一 台 服 务 器 ， 而 不 是 通过 复制 ， 这 听 起 来 有 些 
状 狂 ， 但 却 对 一 些 应 用 有 意义 ， 特 别 是 如 果 应 用 是 某 些 表 的 唯一 更 新 
源 。 复 制 的 瓶颈 通常 集中 在 小 部 分 表 上 。 如 果 能 在 复制 之 外 单独 处 理 这 
些 表 ， 就 能 够 显著 地 加 快 复制 。 








为 复制 线程 预 取 缓 存 


如 果 有 正确 的 工作 负载 ， 就 能 通过 预先 将 数据 读 入 内 存 中 ， 以 有 党 葡 
于 在 备 库 上 的 并 行 O 所 融 来 的 好 处 。 这 种 方式 并 不 广为人知 。 大 多 数 
人 不 会 使 用 ， 因 为 除非 有 正确 的 工作 负载 特性 和 硬件 配置 ， 人 否则 可 能 没 
有 任何 用 处 。 我 们 刚刚 讨论 过 的 其 他 几 种 变通 方式 通常 是 更 好 的 选择 ， 
并 且 有 更 多 的 方法 来 应 用 它们 。 但 是 我 们 知道 也 有 小 部 分 应 用 会 受益 于 
数据 预 取 。 











有 两 种 可 行 的 实现 方法 。 一 种 是 通过 程序 实现 ， 略 微 比 备 库 SQL 线 


程 提 前 读 取 中 继 日 志 并 将 其 转换 为 SELECT 语句 执行 。 这 会 使 得 服务 器 
将 数据 从 磁盘 加 载 到 内 存 中 ， 这 样 当 SQL 线 程 执 行 到 相应 的 语句 时 ， 就 
无 须 从 磁盘 读 取 数 据 。 事 实 上 ，SELECT 语 句 可 以 并 行 地 执行 ， 所 以 可 
以 加 速 SQL 线程 的 串 行 JO。 当 一 条 语句 正在 执行 时 ， 下 一 条 语句 需要 
的 数据 也 正在 从 磁盘 加 载 到 内 存 中 。 


如 采 满 足下 面 这 些 条 件 ， 预 取 可 能 会 有 效 : 


。 复制 SQL 线程 是 IO 密集 型 的 ， 但 备 库 服务 器 并 不 是 IO 密集 型 的 。 
一 个 完全 的 W/O 密 集 型 服务 器 不 会 受益 于 预 取 ， 因 为 它 没 有 多 余 的 
磁盘 性 能 来 提供 预 取 。 

。 备 库 有 多 个 便 盘 驱动 器 ， 也 许 8 个 或 者 更 多 。 

。 使 用 的 是 InnoDB 引 擎 ， 并 且 工 作 集 远 不 能 完全 加 载 到 内 存 中 。 





一 个 受益 于 预 读 取 的 例子 是 随机 单行 UPDATE 语 多， 这 些 语句 通常 在 
主 库 上 高 并 发 执行 。DELETE 语 句 也 可 能 受益 于 这 种 方法 ， 但 1NSERT 语 句 
则 不 太 可 能 会 一 一 尤其 是 当 顺序 插 入 时 一 一 因为 前 一 次 插入 已 经 使 索 
BMR” T o 











如 果 表 上 有 很 多 索引 ， 同 样 无 法 预 取 所 有 将 要 被 修改 的 数 
据 。UPDATE 语 句 可 能 需要 更 新 所 有 索引 ， 但 SELECT 语句 通常 只 会 恋 取 主 
键 和 一 个 二 级 索引 。UPDATE 语 名 依然 需要 去 读 取 其 他 索引 的 数据 以 进行 
更 新 。 在 多 索引 表 上 这 种 方法 的 效率 会 降低 。 











这 种 技术 并 不 是 “ 银 弹 >”， 有 很 多 原因 会 导致 其 不 能 工作 ， 甚 至 适 得 
其 反 。 只 有 在 清楚 人 硬件 和 操作 系统 的 状况 时 才能 答 试 这 种 方法 。 我 们 知 
道 有 些 人 利用 这 种 办 法 将 复制 速度 提升 了 300%% 到 400%， 但 我 们 也 答 试 
过 很 多 次 ， 并 发 现 这 种 方法 常常 无 法 工作 。 正 确 地 设置 参数 非常 重要 ， 














但 并 没有 绝对 正确 的 参数 组 合 。 





mk-slave-prefetch 是 Maatkit 中 的 一 款 工 具 ， 该 工具 实现 了 本 节 所 提 
到 的 预 取 策略 。mk-slave-prefetch 本 身 有 很 多 复杂 的 策略 以 保证 其 在 尽 可 
能 多 的 场景 下 工作 。 但 缺点 是 它 实 在 太 复 杂 并 且 需 要 许多 专业 知识 来 使 
Fao FKL AE Anders Karlsson 的 siavereadahead 工 具 ， 可 以 从 


http://sourceforge.net/projects/slavereadahead/3k 43 © 














另 一 种 方法 在 写作 本 书 时 还 正在 开发 中 ， 它 是 在 mnoDB 内 部 实现 
的 。 它 可 以 允许 设置 事务 为 特殊 的 模式 ， 以 允许 InnoDB 执 行 “ 假 ? 更 新 。 
因此 可 以 使 用 一 个 程序 来 执行 这 些 假 更 新 ， 这 样 复制 线程 就 可 以 更 快 地 
执行 真正 的 更 新 。 我 们 已 经 在 Percona Server 中 为 一 个 非常 流行 的 互联 网 
网 络 应 用 单独 开发 了 该 功能 。 可 以 去 检查 一 下 此 特性 现在 的 状态 ， 因 为 
在 本 书 出 版 时 或 许 已 经 更 新 过 了 。 





如 末 正 在 考 夸 这 项 技术 ， 可 以 从 一 个 熟悉 其 工作 原理 及 可 用 选项 的 
专家 那里 获得 很 好 的 建议 。 这 应 该 作为 其 他 方案 都 不 可 行 时 最 后 的 解决 
办 法 。 


10.7.15 ”来 自主 库 的 过 大 的 包 


另 一 个 难以 追踪 的 问题 是 主 库 的 max_allowed_packet 值 和 备 库 的 不 
匹配 。 在 这 种 情况 下 ， 主 库 可 能 会 记录 一 个 备 库 认为 过 大 的 包 。 当 备 库 
获取 到 该 二 进 制 日 志 事 件 时 ， 可 能 会 碰 到 各 种 各 样 的 问题 ， 包 括 无 限 报 
错 和 重 试 ， 或 者 中 继 日 志 损 坏 。 








10.7.16 SRR ill A) Sl T w, 


如 果 使 用 受 限 的 带宽 进行 复制 ， 可 以 开局 备 库 上 的 
slave compressed protocol 选 项 (在 MySQL 4.0 及 新 版 本 中 可 用 ) 。 
当 备 库 连 接 主 库 时 ， 会 请 求 一 个 被 压 缩 的 连接 一 一 和 MySQL 客 户 站 使 
用 的 压缩 连接 一 样 。 使 用 的 压缩 引擎 是 ziibp， 我 们 的 测试 表明 它 能 将 文 
本 类 型 的 数据 压缩 到 大 约 其 原始 大 小 的 三 分 之 一 。 其 代价 是 需要 额外 的 
CPU 时 间 ， 包 括 在 主 库 上 压缩 数据 和 在 备 库 上 解压 数据 。 











如 果 主 库 和 其 备 库 间 的 连接 是 慢 速 连 接 ， 可 能 需要 将 分 发 主 库 和 备 
库 分 布 在 同一 地 点。 这 样 就 只 有 一 台 服 务 器 通过 慢 速 连接 和 主 库 相 连 ， 
可 以 减少 链 路 上 的 带宽 负载 以 及 主 库 的 CPU 负载 。 


10.7.17 RTEA E 


复制 有 可 能 因为 二 进 制 日 志 、 中 继 日 志 或 临时 文件 将 磁盘 撑 满 。 特 
别 是 在 主 库 上 执行 了 LOAD DATA INFILE 碍 询 并 在 备 库 开 启 了 
log_slave_updates 选 项 。 延 迟 越 严重 ， 接 收 到 但 尚未 执行 的 中 继 日 志 
会 占用 越 多 的 磁盘 空间 。 可 以 通过 监控 磁盘 并 设置 relay_log_space 选 
项 来 避免 这 个 问题 。 


10.7.18 复制 的 局 限 性 


MySQL 复 制 可 能 失败 或 者 不 同步 ， 不 管 有 没有 报错 ， 这 是 因为 其 
内 部 的 限制 导致 的 。 大 量 的 SQL 函数 和 编程 实践 不 能 被 可 靠 地 复制 《本 








章 我 们 已 经 讨论 了 许多 这 样 的 例子 ) 。 很 难 确保 应 用 代码 里 不 会 出 现 这 
样 或 那样 的 问题 ， 特 别 是 应 用 或 者 团队 非常 庞大 的 时 候 。 镀 





另外 一 个 问题 是 服务 器 的 Bug， 虽 然 听 起 来 很 消极 ， 但 大 多 数 
MySQL 的 主 版 本 都 存在 独 历 史 遗 留 的 复制 Bug。 特 别 是 每 个 主 版 本 的 第 
一 个 版 本 。 诸 如 存储 过 程 这 样 的 新 特性 常常 会 导致 更 多 的 问题 。 





MySQL 复 制 非常 复 杀 。 应 用 程序 越 复杂 ， 你 束 需 要 越 小 心 。 但 是 
如 果 学 会 了 如 何 使 用 ， 复 制 会 工作 得 很 好 。 


10.8 复制 有 多 快 


关于 复制 的 一 个 比较 普 过 的 问题 是 复制 到 底 有 多 快 ? 简单 来 讲 ， 它 
与 MYSQL 从 主 库 复制 事件 并 在 备 库 重 放 的 速度 一 样 快 。 如 果 网 络 很 慢 
并 且 二 进 制 日 志 事件 很 大 ， 记 录 二 进 制 日 志和 在 备 库 上 执行 的 延迟 可 能 
会 非常 明显 。 如 果 查 询 需 要 执行 很 长 时 间 而 网 络 很 快 ， 通 第 可 以 认为 三 
询 时 间 占 据 了 更 多 的 复制 时 间 开 销 。 





更 完整 的 答案 是 计算 每 一 步 花费 的 时 间 ， 并 找到 应 用 中 耗 时 最 多 的 
那 一 部 分 。 一 些 读者 可 能 只 关注 主 库 上 记录 事件 和 将 事件 复制 到 中 继 日 
志 的 时 间 间 隔 。 对 于 那些 想 了 解 更 多 细节 的 读者 ， 我 们 可 以 做 一 个 快速 
的 实验 。 








我 们 在 本 书 的 第 一 版 详细 描述 了 复制 的 过 程 和 Giuseppe Maxia 提 供 
的 测量 高 精度 复制 速度 的 方法 (人 各。 我 们 创建 了 一 个 非 确定 性 的 用 户 自 
定义 函数 CUDF) ， 以 微 秒 精度 返回 系统 时 间 《〈 源 代码 参阅 前 面 的 “用 
PE RAL”) : 


mysql> SELECT NOW_USEC() 


+----------------------------+ 


E PRN 
| 2007-20-23 10:44;20,743007 | 
首先 将 NOW_USEC O 函数 的 值 插入 到 主 库 的 一 张 表 中 ， 然 后 比较 它 在 
备 库 上 的 值 ， 以 此 来 测量 复制 的 速度 。 


为 了 训 量 延迟 ， 我 们 在 一 全 服务 器 上 开 尼 两 个 MySQL 实例 ， 以 避 
免 由 于 时 钟 引起 的 不 精确 。 我 们 将 其 中 一 个 实例 配置 为 另 一 个 的 备 库 ， 





然后 在 主 库 实 例 上 执行 如 下 语句 : 


mysql> CREATE TABLE test.lag_test( 
-> id INT NOT NULL AUTO_INCREMENT PRIMARY KEY, 
-> now_usec VARCHAR(26) NOT NULL 
-> ); 


mysql> INSERT INTO test.lag test(now usec) VALUES( NOW_USEC() 


我 们 使 用 的 是 VARCHAR 列 ， 因 为 MySQL 内 建 的 时 间 类 型 只 能 精确 到 
秒 ( 尺 管 一 些 时 间 函 数 可 以 执行 小 于 秒 级 别 的 计算 ) ， 剩 下 的 束 是 比较 
主 备 的 差异 。 这 里 我 们 使 用 Federated 表 和 。 在 备 库 上 执行 : 


mysql> CREATE TABLE test.master_val ( 
-> id INT NOT NULL AUTO_INCREMENT PRIMARY KEY 
-> now_usec VARCHAR(26) NOT NULL 
-> ) ENGINE=FEDERATED 


-> connection='mysql://user :pass@127.0.0.1/test/lag_test' 


简单 的 关联 和 TIMESTAMPDIFF () 函数 可 以 微 秒 精度 显示 主 库 和 备 库 
上 执行 查询 的 延迟 。 
mysql> SELECT m.id, TIMESTAMPDIFF(FRAC SECOND, m.now usec, s.now usec) AS usec lag 


-> FROM test.lag test as s 
-> INNER JOIN test.master_val AS m USING(id) ; 


+----+---------- 十 
| id | usec lag | 
+----+---------- + 
| 1] 476 | 
+----+---------- + 


我 们 使 用 Perl 脚 本 向 主 库 中 插入 1 000r FAAA 1022 
的 延 时 ， 以 避免 主 备 实例 竞争 CPU 时 间 。 然 后 创建 一 个 临时 表 来 存储 每 
个 事件 的 延迟 : 


mysql> CREATE TABLE test.lag AS 
> SELECT TIMESTAMPDIFF(FRAC_SECOND, m.now_usec, SsS.now us 
-> FROM test.master_val AS m 


-> INNER JOIN test.lag_test as s USING(id); 





接着 根据 延迟 时 间 分 组 ， 可 以 看 到 最 常见 的 延迟 时 间 是 多 少 ; 


mysql> SELECT ROUND(lag / 1000000.0，4) * 1000 AS msec_lag, COUNT(*) 
-> FROM lag 
-> GROUP BY msec_lag 
-> ORDER BY msec 128; 








| msec lag | COUNT(*) 
SEE 
| 0.1000 392 
| 0.2000 468 
| 0.3000 75 
| 0.4000 32 
| 0.5000 15 
| 0.6000 9 
| 0.7000 2 
| 1.3000 2 
| 1.4000 1 
| 1.8000 1 
| 4.6000 1 
| 6.6000 1 
| 24.3000 1 
Pe em + 


结果 显示 大 多 数 小 查询 在 主 库 上 的 执行 时 间 和 备 库 上 的 执行 时 间 间 
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复制 过 程 中 没有 计算 的 部 分 是 事件 在 主 库 上 记录 到 二 进 制 日 志 后 需 
要 多 长 时 间 传 递 到 备 库 。 有 必要 知道 这 一 点 ， 因 为 备 库 越 快 接收 到 日 志 
事件 越 好 。 如 果 备 库 已 经 接收 到 了 事件 ， 它 束 能 在 主 库 朋 尝 时 提供 一 个 
拷贝 。 








尽管 我 们 的 测量 结果 没有 精确 地 显示 这 部 分 需要 多 长 时 间 ， 但 理论 
上 非常 快 〈 例 如 ， 仅 仅 受 限于 网 络 速度 ) 。MySQL 二 进 制 日 志 转 储 线 
程 并 没有 通过 轮 询 的 方式 从 主 库 请 求 事 件 ， 而 是 由 主 库 来 通知 备 库 新 的 











事件 ， 因 为 前 者 低 效 且 缓慢 。 从 主 库 读 取 一 个 二 进 制 日 志 事 件 是 一 个 阻 
喜 型 网 络 调用 ， 当 主 库 记 录 事 件 后 ， 马 上 就 开始 发 送 。 因 此 可 以 说 ， 只 
要 复制 线程 被 唤醒 并 且 能 够 通过 网 络 传输 数据 ， 事 件 就 会 很 快 到 达 备 
FE 


10.9 ”MySQL 复制 的 高 级 特性 


Oracle 对 MySQL ”5.5 的 复制 有 着 明显 的 改进 。 更 多 的 特性 还 在 开发 
中 ，MySQL ”5.6 将 包含 这 些 新 特性 。 一 些 改进 使 得 复制 更 加 强健 ， 例 
如 ， 增 加 了 多 线程 (并行) 复制 以 减少 当前 单线 程 复制 的 瓶 贷 。 另 外 ， 
还 有 一 些 改进 增加 了 一 些 高 级 特性 ， 使 得 复制 更 加 灵活 并 可 控制 。 我 们 
不 会 描述 太 多 尚未 GA 的 功能 ， 但 会 讨论 一 些 MySQL ”5.5 关 于 复制 的 改 
进 。 第 一 个 是 半 同 步 复 制 ， 基 于 Google 多 年 前 所 做 的 工作 。 这 是 自 
MySQL 5.1 引 入 行 复 制 后 最 大 的 改进 。 它 可 以 帮助 你 确保 备 库 拥有 主 库 
数据 的 拷贝 ,减少 了 潜在 的 数据 丢失 危险 。 








半 同 步 复制 在 提交 过 程 中 增加 了 一 个 延迟 ， 当 提交 事务 时 ， 在 客户 
端 接收 到 查询 结束 反馈 前 必须 保证 二 进 制 日 志 已 经 传输 到 至 少 一 台 备 库 
上 。 主 库 将 事务 提交 到 磁盘 上 之 后 会 增加 一 些 延迟 。 同 样 的 ， 这 也 增加 
了 客户 端的 延迟 ， 因 此 其 执行 大 量 事务 的 速度 不 会 比 将 这 些 事务 传递 给 
备 库 的 速度 更 快 。 





关于 半 同 步 ， 有 一 些 普 裔 的 误解 ， 下 面 是 它 不 会 去 做 的 : 





。 在 备 库 提 示 其 已 经 收 到 事件 前 ， 会 阻塞 主 库 上 的 事务 提交 。 事 实 上 
在 主 库 上 已 经 完成 事务 提交 ， 只 有 通知 客户 端 航 延迟 了 。 

。 直到 备 库 执行 完事 务 后 ， 才 不 会 阻塞 客户 端 。 备 库 在 接收 到 事务 后 
发 送 反馈 而 非 完成 事务 后 发 送 。 

。 半 同 步 不 总 是 能 够 工作 。 如 果 备 库 一 直 没 有 回应 已 收 到 事件 ， 会 超 
时 并 转化 为 正常 的 异步 复制 模式 。 








尽管 如 此 ， 这 仍然 是 一 个 很 好 用 的 工具 ， 有 助 于 确保 备 库 提供 更 好 
的 元 余 度 和 持久 性 。 


在 性 能 方面 ， 从 客户 端的 角度 来 看 ， 增 加 了 事务 提交 的 延 时 ， 延 时 
的 多 少 取决 于 网 络 传输 ， 数 据 写 入 和 有 刷新 到 备 库 磁盘 的 时 间 《“ 如 有 果 开 局 
了 配置 ) 以 及 备 库 反馈 的 网 络 时 间 。 听 起 来 似乎 这 是 累加 的 ， 但 测试 证 
明 这 些 几乎 是 不 重要 的 ， 也 许 延 迟 是 由 其 他 原因 引起 的 。Giuseppe 
Maxia 发 现 每 次 提交 大 约 延 时 200 微 秒 镶 。 对 于 小 事务 开销 可 能 会 比较 
明显 ， 这 也 是 预期 中 的 。 

















事实 上 半 同 步 复 制 在 某 些 场景 下 确实 能 够 提供 足够 的 灵活 性 以 改善 
性 能 ， 在 主 库 关闭 sync_binlog 的 情况 下 保证 更 加 安全 。 写 入 远程 的 内 
存 〈 一 台 备 库 反 馈 ) 比 写 入 本 地 的 磁盘 《〈 写 入 并 刷新 ) 要 更 快 。Henrik 
ingo 运 行 了 一 些 性 能 测试 表明 ， 使 用 半 同 步 复制 相 比 在 主 库 上 进行 强 持 
入 化 的 性 能 有 两 倍 的 改善 CC。 在 任何 系统 上 都 没有 绝对 的 持久 化 一 一 
只 有 更 加 高 的 持久 化 层次 一 一 并 且 看 起 来 半 同 步 复 制 应 该 是 一 种 比 其 他 
替代 方案 开销 更 小 的 系统 数据 持久 化 方法 。 





除了 半 同 步 复 制 ，MySQL 5.5 还 提供 了 复制 心跳 ， 保 证 备 库 一 直 与 
主 库 相 联系 ， 避 免 悄 无 声 妃 地 断 开 连接 。 如 采 出 现 断 开 的 网 络 连接 ， 备 
库 会 注意 到 丢失 的 心跳 数据 。 当 使 用 基于 行 的 复制 时 ， 还 提供 了 一 种 改 
进 的 能 力 来 处 理 主 库 和 备 库 上 不 同 的 数据 类 型 。 有 几 个 选项 可 以 用 于 配 
置 复制 元 数据 文件 是 如 何 刷新 到 磁盘 以 及 在 一 次 骨 温 后 如 何 处 理 中 继 日 
志 ， 减 少 了 备 库 毅 误 恢复 后 出 现 问题 的 概率 。 








我 们 还 没有 看 到 MySQL 5.5 对 复制 的 改进 大 规模 地 在 生产 环境 进行 
部 效 ， 因 此 还 需要 进行 更 多 的 研究 。 





除了 上 面 提 到 的 ， 这 里 简要 地 列 出 其 他 一 些 改进 ， 包 括 MySQL 以 


及 第 三 方 分 支 ， 例 如 Percona Server 以 及 MariaDB: 


Oracle 在 MySQL ”5.6 实验 室 版 本 和 开发 里 程 碑 版 本 中 有 许多 的 改 
it 





事务 复制 状态 ， 即 使 朋 溃 也 不 会 导致 元 数据 失去 同步 〈Percona 
Server 和 一 MariaDB 己 经 以 别 的 形式 实现 了 ) 。 

二 进 制 日 志 的 checksum 值 ， 用 于 检测 中 继 日 志 中 损坏 的 事件 。 

备 库 延 迟 复 制 ， 用 于 替代 Percona Toolkit 中 的 一 ptrslave-delay 工 具 。 
允许 基于 行 的 二 进 制 日 志 事 件 也 包含 在 主 库 执行 的 SQL 。 
实现 多 线程 复制 (并 行 复制 〉。 





MySQL5.6、Percona Server、Facebook 以 及 MariaDB 提 供 了 三 种 修 
复方 法 解决 了 MySQL 5.0 引 入 的 GROUP COMMIT 的 问题 。 


10.10 ”其 他 复制 技术 


MySQL 内 建 的 复制 并 不 是 将 数据 从 一 台 服 务 器 复制 到 另外 一 台 服 
务 器 的 唯一 办 法 ， 尺 绾 大 多 数 时 候 是 最 好 的 办 法 。 (与 PostgreSQL 相 
比 ，MySQL 并 没有 大 量 附加 的 复制 选项 ， 可 能 是 因为 复制 功能 在 早期 
就 已 经 引入 了 ) 。 





我 们 已 经 讨论 了 MySQL 复 制 的 一 些 扩展 技术 ， 如 Oracle 
GoldenGate， 但 对 大 多 数 工具 我 们 都 不 熟悉 ， 因 此 无 法 讨论 太 多 。 但 是 
有 两 个 我 们 需要 指出 来 ， 第 一 个 是 Percona XtraDB Cluster 的 同步 复制 ， 
我 们 会 在 第 12 章 介绍 ， 因 为 它 比 较 适 合 在 高 可 用 性 这 一 章 讲述 。 另 一 个 
是 Continuent 的 Tungsten Replicator  C(http://code.google.com/p/tungsten- 








replicator/) 。 


Tungsten 是 一 个 用 Java 编 号 的 开源 的 中 间 件 复制 产品 。 它 的 功能 和 
Oracle GoldenGate 类 似 ， 并 且 看 起 来 在 未 来 发 布 的 版 本 中 将 逐步 增加 许 
多 复杂 的 特性 。 在 写作 本 书 时 ， 它 已 经 提供 了 一 些 特性 ， 例 如 ， 在 服务 
器 间 复 制 数据 、 自 动 数据 分 片 、 在 备 库 并 发 执行 更 新 (多 线程 复制 )、 
当主 库 失 败 时 提升 备 库 、 跨 平台 复制 ， 以 及 多 源 复 制 ( 多 个 复制 源 到 一 
个 目标 〉。 它 是 Tungsten 数 据 库 clustering suite 的 开源 版 本 。 








Tungsten 同 样 实现 了 多 主 库 集群 ， 可 以 把 写 入 指向 集群 中 任 童 一 台 
服务 器 。 这 种 架构 的 实现 通常 都 包含 冲突 发 现 与 解决 。 这 一 点 很 难 做 
到 ， 并 且 不 总 是 需要 的 。Tungsten 的 实现 稍微 做 了 点 限制 ， 不 是 所 有 的 
数据 都 能 在 所 有 的 节点 写 入 ， 每 个 市 皮 被 标记 为 记录 系统 ， 以 接收 特定 
的 数据 。 例 如 ， 在 西雅图 的 办 公 室 可 以 拥有 并 写 入 它 的 数据 ， 然 后 复制 











到 休斯敦 和 巴尔 的 摩 。 在 休斯敦 和 巴尔 的 摩 本 地 可 以 实现 低 延 迟 读数 
据 ， 但 在 这 里 Tungsten 不 允许 写 入 数据 ， 这 样 数据 冲突 就 不 存在 了 。 妆 
然 休 斯 臻 和 巴尔 的 雄 可 以 更 新 它们 自己 的 数据 ， 并 被 复制 到 其 他 地 点。 
这 种 “记录 系统 ”方案 解决 了 人 们 需要 在 环形 结构 中 频繁 调整 内 建 MySQL 
复制 的 问题 。 我 们 之 前 讨论 的 环形 复制 还 远 远 不 够 安全 或 强健 。 





Tungsten Replicator 不 仅仅 是 蔡 入 或 管理 MySQL 复 制 ， 而 是 直接 蔡 
代 它 。 它 通过 读 取 主 库 的 二 进 制 日 志 来 获得 数据 更 新 ， 那 里 正 是 内 建 
MySQL 复 制 工作 结束 的 地 方 ， 然 后 由 Tungsten ”Replicator 接 管 。 它 读 取 
二 进 制 日 志 ， 并 抽取 出 事务 ， 然 后 在 备 库 执 行 它 们 。 





该 过 程 比 MySQL 复 制 本 身 有 更 丰富 的 功能 集 。 实 际 上 ，Tungsten 
Replicator 是 第 一 个 提供 MySQL 并 行 复 制 支持 的 。 虽 然 我 们 还 没有 看 到 
其 被 应 用 到 生产 环境 中 ， 但 它 声 称 能 够 提供 最 多 三 倍 的 复制 速度 改善 ， 
具体 取决 于 负载 特性 。 基 于 该 架构 以 及 我 们 对 该 产品 的 了 解 ， 这 看 起 来 
是 可 信 的 。 

















以 下 是 关于 Tungsten Replicator 中 值得 欣赏 的 部 分 : 


它 提 供 了 内 建 的 数据 一 致 性 检查 。 

提供 了 插件 特性 ， 因 此 你 可 以 编写 自己 的 函数 。MySQL 的 复制 源 

代码 非常 难以 理解 并 且 很 难 去 修改 。 即 使 非常 聪明 的 程序 员 在 试图 
修改 时 ， 也 会 引入 新 的 Bug。 因 而 能 有 种 途径 去 修改 复制 而 无 须 修 
改 MySQL 的 复制 代码 ， 是 非常 理想 的 。 

拥有 全 局 事务 ID， 能 够 帮助 你 了 解 每 个 服务 器 相互 之 间 的 状态 而 无 
须 去 匹配 二 进 制 日 志 名 和 偏 移 量 。 

。 它 是 一 个 高 可 用 的 解决 方案 ， 能 够 快速 地 将 一 台 备 库 提升 为 主 库 。 

。 提供 异 构 数 据 复 制 ( 例 如 ， 在 MySQL 和 PostgreSQL 之 间或 者 





MySQL 和 Oracle 之 间 ) 。 

文 持 不 同 版 本 的 MySQL 复 制 ， 以 防止 MySQL 复 制 不 能 反问 兼容 。 
这 对 某 些 升级 的 场景 非常 有 用 。 当 升级 运行 得 不 理想 时 ， 你 可 能 
法 设计 一 个 可 行 的 回 滚 方案 ， 或 者 必须 升级 服务 器 到 一 个 并 不 是 你 
期 望 的 版 本 。 

并 行 复制 的 设计 非常 适用 于 共享 应 用 程序 或 多 任务 应 用 程序 。 

Java 应 用 能 够 明确 地 写 入 主 库 并 从 备 库 读 取 。 

fài F Giuseppe Maxia 作 为 QA 主 管 的 大 量 工作 ， 现 在 比 以 往 更 加 简 
单 并 且 更 加 容易 配置 和 管理 。 





以 下 是 它 的 一 些 缺 点 : 











它 比 内 建 的 MySQL 复 制 更 加 复杂 ， 有 更 多 可 变动 的 地 方 需要 配置 
和 管理 ， 毕 竟 它 是 一 个 中 间 件 。 

在 你 的 应 用 栈 中 需要 多 学 习 和 理解 一 个 新 的 工具 。 

它 并 不 像 内 建 的 MySQL 复 制 那样 轻 量 级 ， 并 且 没 有 同样 的 性 能 。 
使 用 Tungsten Replicator 进 行 单线 程 复 制 比 MySQL 的 单线 程 复 制 要 
慢 。 
作为 MySQL 复 制 并 没有 经 过 广泛 的 测试 和 部 署 ， 所 以 Bug 和 问题 的 
风险 很 高 。 


总 而 言 之 ， 我 们 很 高 兴 Tungsten Replicator 是 可 用 的 ， 并 且 在 积极 的 
开发 中 ， 稳 定 地 释放 新 的 特性 和 功能 。 拥 有 一 个 可 符 代 内 建 MySQL 复 
制 的 选择 ， 这 非常 棱 ， 使 得 MySQL 能 够 适用 于 更 多 的 应 用 场景 ， 并 且 
足够 灵活 ， 能 够 满足 内 建 的 MySQL 复 制 可 能 永远 无 法 满足 的 需求 。 


10.11 总 结 


MySQL 复 制定 其 内 建功 能 中 的 “瑞士 军刀 ”， 显 车 增加 了 MySQL 的 
功能 和 可 用 性 。 事 实 上 这 也 是 MySQL 这 么 快 就 如 此 流行 的 关键 原因 之 














尽管 复制 有 许多 限制 和 风险 ， 但 大 多 数 相对 不 重要 或 者 对 大 多 数 用 
户 而 言 是 可 以 避免 的 。 许 多 缺点 只 在 一 些 高 级 特性 的 特殊 行为 中 ， 这 些 
特性 对 少数 需要 的 人 而 言 是 有 帮助 的 ， 但 大 多 数 人 并 不 会 用 到 。 


正 因 为 复制 提供 了 如 此 重要 和 复杂 的 功能 ， 服 务 器 本 里 不 提供 所 有 
其 他 你 需要 的 功能 ， 例 如 ， 配 置 、 监 控 、 管 理 和 优化 。 第 三 方 工 具 可 以 
很 好 地 帮助 你 。 虽 然 可 能 有 失 偏 凯 ， 但 我 们 认为 最 值得 关注 的 工具 一 定 
是 Percona Toolkit 和 Percona XtraBackup， 它 们 能 够 很 好 地 改进 你 对 复制 
的 使 用 。 在 使 用 别 的 工具 前 ， 建 议 你 先 检查 它们 的 测试 集合 ， 如 果 没 有 
正式 的 、 自 动 化 的 测试 集合 ， 在 将 其 应 用 到 你 的 数据 之 前 请 认真 考虑 。 





对 于 复制 ， 应 该 铭记 K.I.S.S29 原 则 。 不 要 按照 想象 做 事 ， 例 如 ， 使 
用 环形 复制 、 黑 洞 表 或 者 复制 过 滤 ， 除 非 确 实 有 需要 。 使 用 复制 简单 地 
去 镜像 一 份 完整 的 数据 拷贝 ， 包括 所 有 的 权限 。 在 各 方面 保持 你 的 主 备 
库 相 同 可 以 帮助 你 避免 很 多 问题 。 





谈 到 保持 主 库 和 备 库 相同 ， 这 里 有 一 个 简短 但 很 重要 的 列表 告诉 你 
在 使 用 复制 的 时 候 需 要 做 什么 : 








e 使 用 Percona Toolkit 中 的 pt-table-checksum 以 确定 备 库 是 主 库 的 真实 
拷贝 。 








监控 复制 以 确定 其 正在 运行 并 且 没 有 落后 于 主 库 。 

理解 复制 的 异步 本 质 ， 并 且 设 计 你 的 应 用 以 避免 或 容 妨 从 备 库 读 取 
脏 的 数据 。 

在 一 个 复制 拓扑 中 不 要 写 入 超过 一 个 服务 器 ， 把 备 库 配 置 为 只 读 ， 
并 降低 权限 以 阻止 对 数据 的 改变 。 

打开 本 章 所 讨论 的 那些 明智 并 且 安全 的 设置 。 





正如 我 们 将 要 在 第 12 章 讨论 的 ， 复 制 失 败 是 MySQL 故 障 时 间 中 最 
普遍 的 原因 之 一 。 为 了 避免 复制 的 问题 ， 阅 读 第 12 章 ， 并 尝试 应 用 其 给 
予 的 建议 。 你 同样 也 应 该 通读 MySQL 手 册 中 关于 复制 的 章节 ， 并 了 解 
复制 如 何 工 作 以 及 如 何 去 管 理 它 。 如 果 乐 于 阅读 ， Charles Bell et al. 所 
著 的 MySQL High Availability (O'Reilly) 一 书 中 有 许多 关于 复制 内 部 
的 有 用 信息 。 但 你 依然 需要 阅读 手册 ! 

















(1) ”可 能 有 些 地 方 将 会 复制 备 库 Creplica) MAME (slave) ， 这 里 我 们 尽量 避免 这 种 叫 











(2) 如 果 对 二 进 制 日 志 感 到 陌生 ， 可 以 在 第 8 章 、 本 章 剩 下 的 部 分 以 及 第 15 章 获得 更 多 的 信 























È 


(3) 严格 来 讲 这 不 是 必需 的 ， 但 我 们 推荐 这 么 做 ， 稍 后 我 们 会 解释 为 什么 。 
事实 上 ， 正 如 之 前 从 SHOW MASTER STATUS 看 到 的 ， 真 正 的 日 志 起 始 位 置 是 98， 一 
且 备 库 连 接 到 主 库 就 开始 工作 ， 现 在 连接 还 未 发 生 。 
(5) 语句 在 无 限 循环 中 来 回 传递 也 是 多 服务 器 环形 复制 拓扑 结构 中 比较 有 意思 的 话题 之 一 ， 
后 面 我 们 会 提 到 。 要 尽量 避免 环形 复制 。 
(6) 如 果 使 用 的 是 基于 语句 的 复制 ， 就 会 有 这 样 的 问题 ， 但 基于 行 的 复制 方式 则 不 会 〈 另 一 
个 远离 它们 的 理由 ) 。 
(7) 从 技术 上 讲 这 并 非 正确 的 。 但 如 果 有 重复 的 服务 器 ID， 它 们 将 陷入 竞争 ， 并 反复 将 对 方 
从 主 库 上 踢 出 。 
(8) 事实 上 这 些 问题 经 常 一 周 发 生 三 次 ， 并 且 我 们 也 发 现 需 要 好 几 个 月 才能 解决 这 些 问题 。 
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(9) 一 些 ， 但 不 是 全 部 一 一 我 们 可 以 吹 毛 求 滤 ， 并 指出 任何 你 可 以 想象 的 漏洞 。 


(10) 可 以 通过 设置 SQL_L0G_BIN=0 来 暂时 禁止 记录 二 进 制 日 志 而 无 须 停止 复制 。 一 些 语句 ， 
例如 0ptimize TABLE， 也 支持 LOCAL 或 者 NO_ WRITE_TO_BINLOG 这 些 停 止 日 志 的 选项 。 


(11) 也 许 应 该 说 ， 是 更 明智 的 特例 。 

(12) 从 MySQL Bug 35178 和 62829 开 始 查阅 ， 总 地 来 说 ， 如 果 使 用 的 是 不 标准 的 存储 引擎 特 
性 ， 最 好 去 看 看 那些 打开 或 者 关闭 的 受 影响 的 Bug。 

(13) 可 以 使 用 Percona 的 工具 集中 的 pt-heartbeat 来 创建 一 个 粗糙 的 全 局 事务 ID。 这 样 可 以 很 
方便 地 在 多 个 服务 器 上 寻找 二 进 制 日 志 的 位 置 。 因 为 “心跳 表 ” 本 身 就 记录 了 大 概 的 二 进 制 日 志 
位 置 。 

(14) 我 们 明确 地 使 用 /bin/ls 以 避免 启用 通用 别名 ， 它 们 会 为 终端 着 色 添 加 转 义 码 。 

(15) 如 果 复 制 线程 总 是 在 运行 ， 你 可 以 使 用 服务 器 的 uptime 来 代替 CONNECTED_TIME 的 
一 半 p 

(16) 如 果 你 正在 使 用 非 事务 型 存储 引擎 ， 不 首先 调用 STOP _SLAVE 就 关闭 服务 器 是 很 不 妥当 

的 。 


(17) ”这 是 有 可 能 的 ， 即 使 MySQL 在 事务 提交 前 并 不 记录 任何 事件 。 具 体 参 阅 “ 混 合 事 务 型 
和 非 事务 型 表 ”。 另 外 一 种 场景 是 主 库 骨 溃 后 恢复 ， 但 没有 设 
置 innodb_flush_log at_trx_commit 的 值 为 1， 所 以 可 能 丢失 一 些 更 新 。 


(18) 正如 前 面 提 到 的 ，pt-heartbeat 的 心跳 记录 能 够 很 好 地 帮助 你 找到 你 正在 查找 的 事件 的 
KALE 

(19) 也 许 你 想 把 它 保 存在 服务 器 中 ， 这 不 完全 是 玩笑 ， 可 以 给 ID 列 添加 一 个 唯一 索引 。 

(20) 我 们 已 经 有 人 尝试 各 种 方法 来 解决 这 个 问题 ， 但 对 于 基于 语句 的 复制 并 没有 安全 的 临 
时 表 创 建 方法 。 起 码 一 段 时 期 是 这 样 ， 不 管 你 如 何 认 为 ， 起 码 我 们 已 经 证 明了 这 是 不 可 行 的 。 

(21) pt-find 一 一 男 一 个 Percona Toolkit 工 具 一 一 通过 --connection-id 和 --server-id 选 项 能 够 轻易 
地 移 除 伪 临 时 表 。 

(22) 最 近 的 MySQL 版 本 没有 forbid_operations_unsafe_for_replication 选 项 ， 但 它 确实 
对 一 些 不 安全 的 事情 起 到 了 警示 ， 甚 至 拒绝 。 

(23) Æ & http://datacharmer. blogspot.com/2006/04/measuring-replication-speed.html . 

(24) 顺便 说 一 下 ， 这 也 是 一 些 作者 唯一 一 次 使 用 Federated 存 储 引 擎 。 

(25) & |i] http ://datacharmer. blogspot.com/2011/05/price-of-safe-data-benchmarking-semi.html . 















































































































































































































































(26) & |i] http ://openlife.cc/blogs/2011/may/drbd-and-semi-sync-shootout-large-server - 
(27) Keep It Simple, Schwartz! 总 之 一 些 人 认为 这 是 K.I.S.S 的 含义 。 





第 11 草 ”可 扩展 的 MySQL 


本 章 将 展示 如 何 构建 一 个 基于 MySQL 的 应 用 ， 并 且 当 规模 变 得 越 
来 越 庞大 时 ， 还 能 保证 快速 、 高 效 并 且 经 济 。 





有 些 应 用 仅仅 适用 于 一 合 或 少数 几 侣 服务器， 那么 哪些 可 扩展 性 建 
议 是 和 这 些 应 用 相关 的 呢 ? 大 多 数 人 从 不 会 维护 超大 规模 的 系统 ， 并 且 
通常 也 无 法 效仿 在 主流 大 公司 所 使 用 的 集 略 。 本 章 会 涵盖 这 一 系列 的 集 
略 。 我 们 已 经 建立 或 者 协助 建立 了 许多 应 用 ， 包 括 从 单 台 或 少量 服务 器 
的 应 用 到 使 用 上 千 台 服务 器 的 应 用 。 选 择 一 个 合适 的 策略 能 够 大 大 地 节 
约 时 间 和 金钱 。 


MySQL 经 常 被 批评 很 难 进行 扩展 ， 有 些 情况 下 这 种 看 法 是 正确 
的 ， 但 如 果 选 择 正确 的 架构 并 很 好 地 实现 ， 就 能 够 非常 好 地 扩展 
MySQL。 但 是 扩展 性 并 不 是 一 个 很 好 理解 的 主题 ， 所 以 我 们 先 来 理 清 
一 些 容易 混淆 的 地 方 。 





11.1 什么 是 可 扩展 性 


人 们 常常 把 诸如 “可 扩展 性 ”、“ 高 可 用 性 ”以 及 “性 能 ”等 术语 在 一 些 
非 正 式 的 场合 用 作 同 义 词 ， 但 事实 上 它们 是 完全 不 同 的 。 在 第 3 章 已 经 
解释 过 ， 我 们 将 性 能 定义 为 啊 应 时 间 。 我 们 也 可 以 很 精确 地 定义 可 扩展 
性 ， 稍 后 将 完整 讨论 。 人 简要 地 说 ， 可 扩展 性 表明 了 当 需 要 增加 资源 以 执 
行 更 多 工作 时 系统 能 够 获得 划算 的 等 同 提升 equal bang for the buck) 
的 能 力 。 缺 乏 扩展 能 力 的 系统 在 达到 收益 递减 的 转折 点 后 ， 将 无 法 进 一 
步 增长 。 

















容量 是 一 个 和 可 扩展 性 相关 的 概念 。 系 统 容 量 表示 在 一 定时 间 内 能 
够 完成 的 工作 量 趾 ， 但 容量 必须 是 可 以 有 效 利 用 的 。 系 统 的 最 大 吞吐 量 
并 不 等 同 于 容量 。 大 多 数 基准 测试 能 够 衡量 一 个 系统 的 最 大 否 吐 量 ， 但 
真实 的 系统 一 般 不 会 使 用 到 极限 。 如 果 达 到 最 大 吞吐 量 ， 则 性 能 会 下 
降 ， 并 且 响 应 时 间 会 变 得 不 可 接受 地 大 且 非 常 不 稳定 。 我 们 将 系统 的 真 
实 容量 定义 为 在 保证 可 接受 的 性 能 的 情况 下 能 够 达到 的 吞吐 量 。 这 就 是 
为 什么 基准 测试 的 结果 通常 不 应 该 简化 为 一 个 单独 的 数字 。 























容量 和 可 扩展 性 并 不 依赖 于 性 能 。 以 高 速 公路 上 的 汽车 来 类 比 的 
话 : 


能 是 汽车 的 时 速 。 
容量 是 车 道 数 乘 以 最 大 安全 时 速 。 
可 扩展 性 束 是 在 不 减 慢 交 通 的 情况 下 ， 能 增加 更 多 车 和 车道 的 程 
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在 这 个 类 比 中 ， 可 扩展 性 依赖 于 多 个 条 件 : 换 道 设计 得 是 否 
是 否 频繁 


路 上 有 多 少 车 抛锚 或 者 发 生 事故 ， 汽 车 行驶 速度 是 否 不 同 或 者 是 
变换 车 道 一 一 但 一 般 来 说 和 汽车 的 引擎 是 否 强 大 无 天 。 这 并 不 是 说 性 能 
不 重要 ， 人 性 能 确实 重要 ， 只 是 再 要 指出 ， 即 使 系统 性 能 不 是 很 高 也 可 以 
具备 可 扩展 性 。 
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从 较 高 层次 看 ， 可 扩展 性 就 是 能 够 通过 增加 资源 来 提升 容量 的 能 
力 。 


即使 MySQL 染 构 是 可 扩展 的 ， 但 应 用 本 里 也 可 能 无 法 扩展 ， 如 果 
很 难 增加 容量 ， 不 管 原因 是 什么 ， 应 用 都 是 不 可 扩展 的 。 之 前 我 们 从 知 
叶 量 方面 来 定义 容量 ， 但 同样 也 需要 从 较 高 的 层次 来 看 竺 容量 问题 。 从 
有 利 的 角度 来 看 ， 容 量 可 以 简单 地 认为 是 处 理 负载 的 能 力 ， 从 不 同 的 角 
度 来 考虑 负载 很 有 儿 助 。 

















应 用 所 能 累积 的 数据 量 是 可 扩展 性 最 普 志 的 挑战 ， 特 别 是 对 于 
现在 的 许多 互联 网 应 用 而 言 ， 这 些 应 用 从 不 删除 任何 数据 。 例 如 社 
交 网 站 ， 通 季 从 不 会 删除 老 的 消息 或 评论 。 


用 户 量 


即使 每 个 用 户 只 有 少量 的 数据 ， 但 在 蛇 计 到 一 定数 量 的 用 户 
后 ， 数 据 量 也 会 开始 不 成 比例 地 增长 且 速 度 快 过 用 户 数 增长 。 更 多 
的 用 户 意 味 着 要 处 理 更 多 的 事务 ， 并 且 事 务 数 可 能 和 用 户 数 不 成 比 
例 。 最 后 ， 大 量 用 户 《 以 及 更 多 的 数据 ) 也 意味 痢 更 多 复杂 的 奉 
询 ， 特 别 是 查询 跟 用 户 关 系 相 关 时 《用 户 间 的 关联 数 可 以 用 Nx (CN 








-1) 来 计算 ， 这 里 N 表 示 用 户 数 ) 。 
用 户 活跃 度 


不 是 所 有 的 用 户 活 跃 度 都 相同 ， 并 且 用 户 活跃 度 也 不 总 是 不 变 
的 。 如 采用 户 突 然 变 得 活跃 ， 例 如 由 于 增加 了 一 个 吸引 人 的 新 特 
性 ， 那 么 负载 可 能 会 明显 提升 。 用 户 活跃 度 不 仅仅 指 页 面 浏览 数 ， 
即使 同样 的 页 面 浏览 数 ， 如 采 网 站 的 茶 个 需要 执行 大 量 工 作 的 部 分 
变 得 流行 ， 也 可 能 导致 更 多 的 工作 。 男 外 ， 茶 些 用 户 也 会 比 其 他 用 
户 更 活跃 : 他 们 可 能 比 一 般 人 有 更 多 的 朋友 、 消 息 和 照片 。 











相关 数据 集 的 大 小 








如 果 用 户 间 存在 关系 ， 应 用 可 能 需要 在 整个 相关 联 用 户 群 体 上 
执行 查询 和 计算 ， 这 比 处 理 一 个 一 个 的 用 户 和 用 户 数据 要 复杂 得 
多 。 社 交 网 站 经 常会 遇 到 由 那些 人 和气 很 旺 的 用 户 组 或 朋友 很 多 的 用 
户 所 带 来 的 挑战 号 。 


11.1.1 正式 的 可 扩展 性 定义 


有 必要 探讨 一 下 可 扩展 性 在 数学 上 的 定义 了 ， 这 有 助 于 在 更 高 层次 
的 概念 上 清晰 地 理解 可 扩展 性 。 如 果 没 有 这 样 的 基础 ， 束 可 能 无 法 理解 
或 精确 地 表达 可 扩展 性 。 不 过 不 用 担心 ， 这 里 不 会 涉及 蜗 等 数学 ， 即 使 
不 是 数学 天 才 ， 也 能 够 很 直观 地 理解 它 。 











关键 是 之 前 我 们 使 用 的 短语 :“ 划 算 的 等 同 提升 (equal bang for the 
buck) ”。 男 一 种 说 法 是 ， 可 扩展 性 是 当 增 加 资源 以 处 理 负 载 和 增加 容 

















量 时 系统 能 够 获得 的 投资 产 出 率 (ROD 。 假 设 有 一 个 只 有 一 台 服 务 器 
的 系统 ， 并 且 能 够 测量 它 的 最 大 容量 ， 如 图 11-1 所 示 。 
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图 11-1: 一 个 只 有 一 台 服务 器 的 系统 


假设 现在 我 们 增加 一 全 服务器， 系统 的 能 力 加 倍 ， 如 图 11-2 所 示 。 
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图 11-2: 一 个 线性 扩展 的 系统 能 由 两 台 服 务 器 获得 两 倍 容量 


这 就 是 线性 扩展 。 我 们 增加 了 一 倍 的 服务 器 ， 结 果 增 加 了 一 倍 的 容 
量 。 大 部 分 系统 并 不 是 线性 扩展 的 ， 而 是 如 图 11-3 所 示 的 扩展 方式 。 
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图 11-3: 一 个 非 线性 扩展 的 系统 


大 部 分 系统 都 只 能 以 比 线性 扩展 略 低 的 扩展 系数 进行 扩展 。 越 高 的 
扩展 系数 会 导致 越 大 的 线性 偏 莽 。 事 实 上 ， 多 数 系统 最 终 会 达到 一 个 最 
大 吞吐 量 临界 点 ， 超 过 这 个 点 后 增加 投入 反而 会 帝 来 负 回报 一 一 继续 增 
加 更 多 工作 负载 ， 实 际 上 会 降低 系统 的 吞吐 量 。 鸟 


这 怎么 可 能 呢 ? 这 些 年 产生 了 许多 可 扩展 性 模型 ， 它 们 有 着 不 同 程 
度 的 良好 表现 和 实用 性 。 我 们 这 里 所 讲 的 可 扩展 性 模型 是 基于 某 些 能 够 
影响 系统 扩展 的 内 在 机 制 。 这 就 是 Neil J. Gunther 博 士 提 出 的 通用 可 扩展 
性 定律 〈Universal Scalability Law, USL) 。Gunther 博 士 将 这 些 详尽 地 
写 到 了 他 的 书 中 ， 包 括 Guerrilla Capacity Planning (Springer) 。 这 里 
我 们 不 会 深入 到 背后 的 数学 理论 中 ， 如 果 你 对 此 感 兴趣 ， 他 撰写 的 书籍 
以 及 由 他 的 公司 Performance Dynamics 提 供 的 训练 课程 可 能 是 比较 好 的 
a. A 





简 而 言 之 ，USL 说 的 是 线性 扩展 的 偏差 可 通过 两 个 因素 来 建立 柑 
型 : 无 法 并 发 执行 的 一 部 分 工作 ， 以 及 需要 交互 的 男 外 一 部 分 工作 。 为 
第 一 个 因素 建 模 就 有 了 著名 的 Amdahl 定 律 ， 它 会 导致 吞吐 量 趋 于 平 
缓 。 如 果 部 分 任务 无 法 并 行 ， 那 么 不 管 你 如 何 分 而 治之 ， 该 任务 至 少 需 
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增加 第 二 个 因 系 一 一 内 部 节点 间或 者 进程 间 的 通信 一 一 到 Amdahl 
定律 束 得 出 了 USL。 这 种 通信 的 代价 取决 于 通信 信道 的 数量 ， 而 信道 的 
数量 将 按照 系统 内 工作 者 数量 的 二 次 方 增长 。 因 此 最 终 开 销 比 带 来 的 收 
敬 增 长 得 更 快 ， 这 是 产生 扩展 性 倒退 的 原因 。 图 11-4 阐 明了 目前 讨论 到 
的 三 个 概念 : 线性 扩展 、Amdahl 扩 展 ， 以 及 USL 扩 展 。 大 多 数 真实 系统 
看 起 来 更 像 USL 曲 线 。 
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图 11-4: 线性 扩展 、Amdah1 扩 展 以 及 USL 扩 展 定律 


USL 可 以 应 用 于 硬件 和 软件 领域 。 对 于 硬件 ， 模 轴 表 示人 硬件 的 数 
量 ， 例 如 服务 器 数量 或 CPU 数量 。 每 个 便 件 的 工作 量 、 数 据 大 小 以 及 碍 
询 的 复杂 度 必 须 保 持 为 常量 鸟 。 对 于 软件 ， 横 轴 表 示 并 发 度 ， 例 如 用 户 
数 或 线程 数 。 每 个 并 发 的 工作 量 必 须 保 持 为 常量 。 


有 一 点 很 重要 ，USL 并 不 能 完美 地 描述 真实 系统 ， 它 只 是 一 个 简化 
模型 。 但 这 是 一 个 很 好 的 框架 ， 可 用 于 理解 为 什么 系统 增长 无 法 带 来 等 
同 的 收益 。 它 也 揭示 了 一 个 构建 高 可 扩展 性 系统 的 重要 原则 : 在 系统 内 











尽量 避免 串 行 化 和 交互 。 





可 以 衡量 一 个 系统 并 使 用 回归 来 确定 串 行 和 交互 的 量 。 你 可 以 将 它 
作为 容量 规划 和 性 能 预测 评估 的 最 优 上 限 值 。 也 可 以 检查 系统 是 怎么 偏 
离 USL 模 型 的 ， 将 其 作为 最 差 下 限 值 以 指出 系统 的 哪 一 部 分 没有 表现 出 
它 应 有 的 性 能 。 这 两 种 情况 下 ，USL 给 出 了 一 个 讨论 可 扩展 性 的 参考 。 
如 果 没 有 USL， 那 即使 上 果 着 系统 看 也 无 法 知道 期 望 的 结果 是 什么 。 如 果 
想 深 入 了 解 这 个 主题 ， 最 好 去 看 一 下 对 应 的 书籍 。Gunther 博 士 已 经 写 
得 很 清楚 ， 因 此 我 们 不 会 再 深入 讨论 下 去 。 





男 外 一 个 理解 可 扩展 性 问题 的 框架 是 约束 理论 ， 它 解释 了 如 何 通 过 
减少 依赖 事件 和 统计 变化 (statistical variation) 来 改进 系统 的 吞吐 量 和 
PERE. JXfEEliyahu M. Goldratt 所 撰写 的 Thpe Goal (North River) 一 书 中 
有 描述 ， 其 中 有 一 个 关于 管理 制造 业 设 备 的 延伸 的 比喻 。 尽 管 这 看 起 来 
和 数据 库 服务 器 没有 什么 关联 ， 但 其 中 包含 的 法 则 和 排队 理论 以 及 其 他 
运筹 学 方面 是 一 样 的 。 











扩展 模型 不 是 最 终 定论 


虽然 有 许多 理论 ， 但 在 现实 中 能 做 到 何 种 程度 呢 ? 正如 牛顿 定律 
被 证 明 只 有 远 低 于 光速 时 才 合 理 ， 那 些 “ 扩 展 性 定律 ”也 只 是 在 茶 些 
场景 下 才能 很 好 工作 的 简化 模型 。 有 一 种 说 法 认为 所 有 的 模型 都 是 错 
误 的 ， 但 有 一 些 模型 还 是 有 用 的 ， 特 别 是 USL 能 够 帮助 理解 一 些 导 至 
扩展 性 差 的 因素 。 


当 工作 负载 和 其 所 运行 的 系统 存在 微妙 的 关系 时 ，USL 理 论 可 能 
失效 。 例 如 ， 一 个 USL 无 法 很 好 建 模 的 常见 情况 是 : 当 集 群 的 总 内 存 


由 于 数据 集 大 小 而 发 生 改 变 时 ， 也 会 导致 系统 的 行为 发 生变 化 。USL 
不 允许 比 线性 更 好 的 可 扩展 性 ， 但 现实 中 可 能 会 发 生 这 样 的 事情 : 增 
加 系统 的 资源 后 ， 原来 一 部 分 170 密 集 型 的 工作 变 成 了 纯 内 存 工作 
因此 获得 了 超过 线性 的 性 能 扩展 。 


还 有 一 些 情 况 ，USL 无 法 很 好 描述 系统 行为 。 当 系统 或 数据 集 大 
小 改变 时 算法 的 复杂 度 可 能 改变 ， AU ae 就 无 法 建立 
模型 《USL 由 0(1) 复杂 度 和 0(N2) 复杂 度 两 部 分 构成 ， 那 么 对 于 诸如 
O(logN) 或 者 0(NIogN) 这 样 复 杂 度 的 部 分 呢 ? ) 。 根 据 一 些 思 考 和 实 
ed 我 们 可 以 将 USL 扩 展 以 履 盖 这 些 比较 普遍 的 场景 中 的 一 部 

。 但 这 会 将 一 个 简单 并 且 有 用 的 模型 变 得 复杂 并 难以 使 用 。 事 实 

eee ee 
立 模型 。 这 也 是 为 什么 我 们 发 现 它 是 在 正确 性 和 有 效 性 之 间 的 一 个 很 
HF AYE 


简单 地 说 : 有 保留 地 使 用 模型 ， 并 且 在 使 用 中 验证 你 的 发 现 。 





11.2 扩展 MySQL 


如 果 将 应 用 所 有 的 数据 简单 地 放 到 单个 MySQL 服 务 器 实例 上 ， 则 
无 法 很 好 地 扩展 ， 迟 早 会 碰 到 性 能 瓶颈 。 对 于 许多 类 型 的 应 用 ， 传 统 的 
解雇 方法 是 购买 更 多 强悍 的 机 堪 ， 也 就 是 常 说 的 “垂直 扩展 ?或 者 “同上 
扩展 "。 男 外 一 个 与 之 相反 的 方法 是 将 任务 分 配 到 多 台 计 算 机 上 ， 这 通 
第 被 称 为 “水平 扩展 ?或 者 “ 回 外 扩展 ”。 我 们 将 讨论 如 何 联合 使 用 同上 扩 
展 和 回 外 扩展 的 解决 方案 ， 以 及 如 何 使 用 集群 方案 来 进行 扩展 。 最 后 ， 
大 部 分 应 用 还 会 有 一 些 很 少 或 者 从 不 十 要 的 数据 ， 这 些 数据 可 以 被 清理 
或 归档 。 我 们 将 这 个 方案 称 为 “ 回 内 扩展 ”， 这 么 取 名 是 为 了 和 其 他 集 略 
EDC AC 


11.2.1 规划 可 扩展 性 


人 们 通常 只 有 在 无 法 满足 增加 的 负载 时 才 会 考虑 到 可 扩展 性 ， 具 体 
表现 为 工作 负载 从 CPU 密集 型 变 成 UO 密 集 型 ， 并 发 查询 的 竞争 ， 以 及 
不 断 增 大 的 延迟 。 主 要 原因 是 查询 的 复杂 度 增加 或 者 内 存 中 驻 留 着 一 部 
分 不 再 使 用 的 数据 或 者 索引 。 你 可 能 看 到 一 部 分 类 型 的 查询 发 生 改 变 ， 
例如 大 的 查询 或 者 复杂 查询 常常 比 那 些小 的 查询 更 影响 系统 。 
































如 打 是 可 扩展 的 应 用 ， 则 可 以 简单 地 增加 更 多 的 服务 器 来 分 担负 
载 ， 这 样 就 没有 性 能 问题 了 。 但 如 果 不 是 可 扩展 的 ， 你 会 发 现 自己 将 站 
遇 到 无 穷 无 尽 的 问题 。 可 以 通过 规划 可 扩展 性 来 避免 这 个 问题 。 














规划 可 扩展 性 最 困难 的 部 分 是 估算 需要 承担 的 负载 到 后 有 多 少 。 这 





个 值 不 一 定 非常 精确 ， 但 必须 在 一 定 的 数量 级 范围 内 。 如 宁 估 计 过 高 ， 
会 浪费 开发 资源 。 但 如 果 低 佑 了 ， 则 难以 应 付 可 能 的 负载 。 


另外 还 需要 大 致 正确 地 估计 日 程 表 一 一 也 惑 是 说 ， 需 要 知道 底线 在 





哪里 。 对 于 一 些 应 用 ， 一 个 简单 的 原型 可 以 很 好 地 工作 几 个 月 ， 从 而 有 
时 间 去 筹资 建立 一 个 更 加 可 扩展 的 架构 。 对 于 其 他 的 一 些 应 用 ， 你 可 能 


= 
需要 


当前 的 架构 能 够 为 未 来 两 年 提供 足够 的 容量 。 
以 下 间 题 可 以 帮助 规划 可 扩展 性 : 


应 用 的 功能 完成 了 多 少 ? 许多 建议 的 可 扩展 性 解决 方案 可 能 会 导致 
实现 某 些 功 能 变 得 更 加 困难 。 如 果 应 用 的 某 些 核心 功能 还 没有 开始 
实现 ， 就 很 难看 出 如 何在 一 个 可 扩展 的 应 用 中 实现 它们 。 同 样 地 ， 
在 知道 这 些 特性 如 何 真 实地 工作 之 前 也 很 难 决 定 使 用 哪 一 种 可 扩展 
性 解决 方案 。 

预期 的 最 大 负载 是 多 少 ? 应 用 应 当 在 最 大 负载 下 也 可 以 正常 工作 。 
如 果 你 的 网 站 和 Yahoo! News 或 者 Slashdot 的 首页 一 样 ， 会 发 生 什么 
呢 ? 即使 不 是 很 热门 的 网 站 ， 也 同样 有 最 高 负载 。 比 如 ， 对 于 一 个 
在 线 零 售 商 ， 假 日 期 间 一 一 尤其 是 在 圣诞 前 的 几 个 星期 一 一 通常 是 
负载 达到 诈 峰 的 时 候 。 在 美国 ， 情 入 市 和 母亲 节 前 的 周末 对 于 在 线 
花 店 来 说 也 是 负载 高 峰 期 。 

如 果 依 赖 系统 的 每 个 部 分 来 分 担负 载 ， 在 某 个 部 分 失效 时 会 发 生 什 
AME? 例如 ， 如 果 依 赖 备 库 来 分 担 读 负 载 ， 当 其 中 一 个 失效 时 ， 是 
否 还 能 正常 处 理 请 求 ? 是 否 需 要 禁用 一 些 功能 ?可 以 预先 准备 一 些 
空闲 容量 来 防范 这 种 问题 。 














11.2.2 ”为 扩展 局 得 时 间 





在 理想 情况 下 ， 应 该 是 计划 先行 、 拥 有 足够 的 开发 者 、 有 人 花 不 完 的 
预算 ， 等 等 。 但 现实 中 这 些 情况 会 很 复杂 ， 在 扩展 应 用 时 第 第 需要 做 一 
些 受 协 ， 特 别 是 需要 把 对 系统 大 的 改动 推迟 一 段 时 间 再 执行 。 在 深入 
MySQL 扩 展 的 细节 前 ， 以 下 是 一 些 可 以 做 的 准备 工作 : 























优化 性 能 





很 多 时 候 可 以 通过 一 个 简单 的 改动 来 获得 明显 的 性 能 提升 ， 例 
如 为 表 建 立正 确 的 索引 或 从 MyISAM 切 换 到 ImnoDB 存 储 引 擎 。 如 果 
过 到 了 性 能 限制 ， 可 以 打开 查询 日 志 进 行 分 析 ， 详 情 请 参阅 第 3 


A 


草 。 





在 修复 了 大 多 数 主要 的 问题 后 ， 会 到 达 一 个 收益 递减 点 ， 这 时 
候 提 升 性 能 会 变 得 越 来 越 困 难 。 每 个 新 的 优化 都 可 能 耗费 更 多 的 精 
力 但 只 有 很 小 的 提升 ， 并 会 使 应 用 更 加 复杂 。 


购买 性 能 更 强 的 硬件 





升级 或 增加 服务 器 在 茶 些 场景 下 行 之 有 效 ， 特 别 是 对 处 于 软件 
生命 周期 早期 的 应 用 ， 购 买 更 多 的 服务 器 或 者 增加 内 存 通常 是 个 好 
办 法 。 男 一 个 选择 是 尽量 在 一 台 服 务 器 上 运行 应 用 程序 。 比 起 修改 
应 用 的 设计 ， 购 买 更 多 的 硬件 可 能 是 更 实际 的 办 法 ， 特 别 是 时 间 紧 
和 急 并 且 缺 乏 开 发 者 的 时 候 。 





如 末 应 用 很 小 或 者 被 设计 为 便于 利用 更 多 的 和 硬件， 那么 购买 更 多 的 
人 硬件 应 该 是 行 之 有 效 的 办 法 。 对 于 新 应 用 这 是 很 普遍 的 ， 因 为 它们 通 季 
很 小 或 者 设计 合理 。 但 对 于 大 型 的 旧 应 用 ， 购 买 更 多 人 硬件 可 能 没什么 效 
条 ， 或 者 代价 太 高 。 服 务 器 从 1 合 增加 到 3 人 台 或 许 算 不 了 什么 ， 但 从 100 








台 增 加 到 300 全 就 是 万 外 一 回 事 了 一 一 代价 非常 昂 贯 。 如 有 果 是 这 样 ， 伦 
一 些 时 间 和 精力 来 尽 可 能 地 提升 现 有 系统 的 性 能 就 很 划算 。 


11.2.3 HEF E 


回 上 扩展 “有 时 也 称 为 垂直 扩展 ) 意味 着 购买 更 多 性 能 强悍 的 看 
件 ， 对 很 多 应 用 来 说 这 是 唯一 需要 做 的 事情 。 这 种 策略 有 很 多 好 处 。 例 
如 ， 单 台 服 务 器 比 多 台 服 务 器 更 加 容易 维护 和 开 及 ， 能 显著 节约 开销 。 
在 单 台 服务 器 上 备份 和 恢复 应 用 同样 很 简单 ， 因 为 无 须 关 心 一 致 性 或 者 
哪个 数据 集 是 权威 的 。 当 然 ， 还 有 一 些 别 的 原因 。 从 复杂 性 的 成 本 来 
说 ， 问 上 扩展 比 辐 外 扩展 更 简单 。 




















同上 扩展 的 空间 其 实 也 很 大 。 拥 有 0.5TB 内 存 、32 核 (或 者 更 多 ) 
CPU 以 及 更 强悍 1/O 性 能 的 (例如 PCIe 卡 的 flash 存 储 〉 商 用 服务 器 现在 
很 容易 获得 。 优 秀 的 应 用 和 数据 库 设计 ， 以 及 很 好 的 性 能 优化 技能 ， 可 
以 帮助 你 在 这 样 的 服务 器 上 建立 一 个 MySQL 大 型 应 用 。 





在 现代 人 硬件 上 MySQL 能 扩展 到 多 大 的 规模 呢 ? 尺 管 可 以 在 非常 强 
大 的 服务 器 上 运行 ， 但 和 大 多 数 数据 库 服 务 器 一 样 ， 在 增加 硬件 资源 的 
情况 下 MySQL 也 无 法 很 好 地 扩展 〈 非 常 奇怪 ! ) 。 为 了 更 好 地 在 大 型 
服务 器 上 运行 MySQL， 一 定 要 尽量 选择 最 新 的 版 本 。 由 于 内 部 可 扩展 
性 问题 ，MySQL 5.0 和 5.1 在 大 型 硬件 里 的 表现 并 不 理想 。 建 议 使 用 
MySQL 5.5 或 者 更 新 的 版 本 ， 或 者 Percona Server 5.1 及 后 续 版 本 。 即 便 
如 此 ， 当 前 合理 的 “收益 递减 点 ”的 机 器 配置 大 约 是 256GB RAM，32 核 
CPU 以 及 一 个 PCIe _ flash 驱 动 器 。 如 果 继 续 提升 硬件 的 配置 ，MySQL 的 
性 能 虽然 还 能 有 所 提升 ， 但 性 价 比 就 会 降低 ， 实 际 上 ， 在 更 强大 的 系统 
上 ， 也 可 以 通过 运行 多 个 小 的 MySQL 实 例 来 替代 单个 大 实例 ， 这 样 可 











以 获得 更 好 的 性 能 。 当 然 ， 机 器 配置 的 变化 速度 非常 快 ， 这 个 建议 也 许 
很 快 束 会 过 时 了 。 





问 上 扩展 的 策略 能 够 项 一 段 时 间 ， 实 际 很 多 应 用 是 不 会 达到 天 人 花 板 
的 。 但 是 如 果 应 用 变 得 非常 庞大 急 ， 向 上 扩展 可 能 就 没有 办 法 了 。 第 一 
个 原因 是 钱 ， 无 论 服 务 器 上 运行 什么 样 的 软件 ， 从 茶 种 角度 来 看 ， 癌 上 
扩展 都 是 个 糟糕 的 财务 决策 ， 当 超出 硬件 能 够 提供 的 最 优 性 价 比 时 ， 就 
会 需要 非 同 寻 常 的 特殊 配置 的 人 硬件， 这 样 的 硬件 往往 非常 郧 吐 。 这 意味 
大 能 向 上 扩展 到 什么 地 步 是 有 实际 的 限制 的 。 如 果 使 用 了 复制 ， 那 么 当 
主 库 升级 到 高端 硬件 后 ， 一 般 是 不 太 可 能 配置 出 一 台 能 够 跟 上 主 库 的 强 
大 备 库 的 。 一 个 高 负载 的 主 库 通常 可 以 承担 比 拥有 同样 配置 的 备 库 更 多 
的 工作 ， 因 为 备 库 的 复制 线程 无 法 高 效 地 利用 多 核 CPU 和 磁盘 资源 。 











最 后 ， 向 上 扩展 不 是 无 限制 的 ， 即 使 最 强大 的 计算 机 也 有 限制 。 单 
服务 器 应 用 通常 会 首先 达到 读 限 制 ， 特 别 是 执行 复杂 的 读 查 询 时 。 类 似 
这 样 的 查询 在 MySQL 内 部 是 单线 程 的 ， 因 此 只 能 使 用 一 个 CPU， 这 种 
情况 下 花 钱 也 无 法 提升 多 少 性 能 。 即 使 购买 最 快 的 CPU 也 仅仅 会 是 商用 
CPU 的 几 倍 速度 。 增 加 更 多 的 CPU 或 CPU 核 数 并 不 能 使 慢 查 询 执行 得 更 
快 。 当 数据 变 得 庞大 以 至 于 无 法 有 效 缓存 时 ， 内 存 也 会 成 为 瓶颈 ， 这 通 
常 表现 为 很 高 的 磁盘 使 用 率 ， 而 磁盘 是 现代 计算 机 中 最 慢 的 部 分 。 











无 法 使 用 同上 扩展 最 明显 的 场景 是 云 计 算 。 在 大 多 数 公 有 云 中 都 无 
法 获得 性 能 非常 强 的 服务 器 ， 如 有 果 应 用 肯定 会 变 得 非常 庞大 ， 就 不 能 ; 
择 向 上 扩展 的 方式 。 在 第 13 章 我 们 会 深入 这 个 话题 。 








因此 ， 我 们 建议 ， 如 果 系 统 确实 有 可 能 碰 到 可 扩展 性 的 天 人 花 板 ， 并 
目 会 导致 严重 的 业务 问题 ， 那 残 不 要 无 限制 地 做 加 上 扩展 的 规划 。 如 果 
你 知道 应 用 会 变 得 很 庞大 ， 在 实现 另外 一 种 解决 方案 前 ， 短 期 内 购买 更 











优 的 服务 器 是 可 以 的 。 但 是 最 终 还 是 需要 问 外 扩展 ， 这 也 是 下 一 节 我 们 
要 讲述 的 主题 。 


11.2.4” 问 外 扩展 


可 以 把 回 外 扩展 (有 了 时 也 称 为 模 回 扩展 或 者 水 平 扩展 ) 策略 划分 为 
三 个 部 分 : 复制 、 拆 分 ， 以 及 数据 分 片 Csharding) 。 








最 简 蛙 也 最 常见 的 同 外 扩展 的 方法 是 通过 复制 将 数据 分 及 到 多 个 服 
务 器 上 ， 然 后 将 备 库 用 于 读 查 询 。 这 种 技术 对 于 以 读 为 主 的 应 用 很 有 
效 。 它 也 有 一 些 缺 后 ， 例 如 重复 绥 存 ， 但 如 果 数 据 规模 有 限 这 就 不 是 问 
题 。 关 于 这 些 问 题 我 们 在 前 一 章 已 经 讨论 得 足够 多 ， 后 面 会 继续 提 到 。 














男 外 一 个 比较 第 见 的 向 外 扩展 方法 是 将 工作 负载 分 布 到 多 个 “市 
扩 ”。 具 体 如 何 分 布 工作 负载 是 一 个 复杂 的 话题 。 许 多 大 型 的 MySQL 应 
用 不 能 自动 分 布 负 载 ， 束 算 有 也 没有 做 到 完全 的 上 自动化。 本 市 我 们 会 讨 
论 一些 可 能 的 分 布 负载 的 方案 ， 并 探讨 它们 的 优点 和 缺点 。 





在 MySQL 架 构 中 ， 一 个 节点 Code) 就 是 一 个 功能 部 件 。 如 果 没 
有 规划 元 余 和 高 可 用 性 ， 那 么 一 个 节点 可 能 就 是 一 台 服 务 器 。 如 果 设 计 
的 是 能 够 故障 转移 的 元 余 系 统 ， 那 么 一 个 节点 通 各 可 能 是 下 面 的 茶 一 
种 : 





。 一 个 主 一 主 复制 双 机 结构 ， 拥 有 一 个 主动 服务 器 和 被 动 服务 器 。 

。 一 个 主 库 和 多 个 备 库 。 

。 一 个 主动 服务 器 ， 并 使 用 分 布 式 复制 块 设备 (DRBD) 作为 备用 服 
务 器 。 





© 一 个 基于 存储 区 域 网 络 (SAN) 的 “集群 ”。 





大 多 数 情 况 下 ， 一 个 节点 内 的 所 有 服务 器 应 该 拥有 相同 的 数据 。 我 
们 倾 加 于 把 主 一 主 复制 架构 作为 两 全 服务 器 的 主动 一 被 动 节 扩 。 





1， 按 功能 拆 分 








按 功能 拆 分 ， 或 者 说 按 职责 拆 分 ， 意 味 着 不 同 的 节点 执行 不 同 的 任 
务 。 我 们 之 前 已 经 提 到 了 一 些 类 似 的 实现 ， 在 前 一 章 我 们 描述 了 如 何 为 
OLIP 和 OLAP 工 作 负 载 设 计 不 同 的 服务 器 。 按 功能 拆 分 采取 的 策略 比 这 
些 更 进一步 ， 将 独立 的 服务 器 或 节点 分 配给 不 同 的 应 用 ， 这 样 每 个 节点 
只 包含 它 的 特定 应 用 所 需要 的 数据 。 











这 里 我 们 显 式 地 使 用 了 “应 用 ”一 词 。 所 指 的 并 不 是 一 个 单独 的 计算 
机 程序 ， 而 是 相关 的 一 系列 程序 ， 这 些 程序 可 以 很 容易 地 彼此 分 离 ， 没 
有 关联 。 例 如 ， 如 果 有 一 个 网 站 ， 各 个 部 分 无 须 共 享 数据 ， 那 么 可 以 按 
照 网 站 的 功能 区 域 进行 划分 。 门 户 网 站 常常 把 不 同 的 栏目 放 在 一 起 ;在 
门户 网 站 ， 可 以 浏览 网 站 新 闻 、 论 坛 ， 寻 求 文 持 和 访问 知识 库 ， 等 等 。 
这 些 不 同 功 能 区 域 的 数据 可 以 放 到 专用 的 MySQL 服 务 絮 中 ， 如 图 11-5 所 
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图 11-5: 一 个 门户 网 站 以 及 专用 于 不 同 功 能 区 域 的 节点 


如 果 应 用 很 庞大 ， 每 个 功能 区 域 还 可 以 拥有 其 专用 的 Web 服 务 器 ， 
但 没有 专用 的 数据 库 服 务 占 这 么 常见 。 


男 一 个 可 能 的 按 功 能 划分 方法 是 对 单个 服务 器 的 数据 进行 划分 ， 并 
确保 划分 的 表 集 合 之 间 不 会 执行 关联 操作 。 当 必须 执行 关联 操作 时 ， 如 
果 对 性 能 要 求 不 高 ， 可 以 在 应 用 中 做 关联 。 虽 然 有 一 些 变通 的 方法 ， 但 
它们 有 一 个 共同 点 ， 就 是 每 种 类 型 的 数据 只 能 在 单个 节点 上 找到 。 这 并 
不 是 一 种 通用 的 分 布 数据 方法 ， 因 为 很 难 做 到 高 效 ， 并 且 相 比 其 他 方案 
没有 任何 优势 。 





归根 结 底 ， 还 是 不 能 通过 功能 划分 来 无 限 地 进行 扩展 ， 因 为 如 果 一 
个 功能 区 域 被 捆绑 到 单个 MYSQL 节点 ， 就 只 能 进行 垂直 扩展 。 其 中 的 
一 个 应 用 或 者 功能 区 域 最 终 增 长 到 非常 庞大 时 ， 都 会 迫使 你 去 寻求 一 个 
不 同 的 策略 。 如 果 进 行 了 太 多 的 功能 划分 ， 以 后 就 很 难 采 用 更 具 扩 展 性 
的 设计 了 。 








2. 数据 分 厂 


在 目前 用 于 扩展 大 型 MySQL 应 用 的 方案 中 ， 数 据 分 片 中 是 最 通用 且 
最 成 功 的 方法 。 它 把 数据 分 割 成 一 小 片 ， 或 者 说 一 块 ， 然 后 存储 到 不 同 
的 节点 中 。 


数据 分 请 在 和 某 些 类 型 的 按 功 能 划分 联合 使 用 时 非常 有 用 。 大 多 数 
分 厂 系 统 也 有 一 些 “ 全 局 的 ”数据 不 会 被 分 片 ( 例 如 城市 列表 或 者 登录 数 
据 》。 全 局 数据 一 般 存储 在 单个 节点 上 ， 并 且 通 常 保存 在 类 
似 memcached 这 样 的 缓存 里 。 





事实 上 ， 大 多 数 应 用 只 会 对 需要 的 数据 做 分 片 一 一 通 第 是 那些 将 会 
增长 得 非常 庞大 的 数据 。 假 设 正在 构建 的 博客 服务 ， 预 计 会 有 1000 万 用 
户 ， 这 时 候 就 无 须 对 注册 用 户 进行 分 睫 ， 因 为 完全 可 以 将 所 有 的 用 户 
《或 者 其 中 的 活跃 用 户 ) 放 到 内 存 中 。 假 如 用 户 数 达到 5 亿 ， 那 么 就 可 





能 需要 对 用 户 数据 分 片 。 用 户 产生 的 内 容 ， 例 如 发 表 的 文章 和 评论 ， 几 
乎 肯定 需要 进行 数据 分 睫 ， 因 为 这 些 数据 非常 庞大 ， 并 且 还 会 越 来 越 
多 。 





大 型 应 用 可 能 有 多 个 人 逻辑 数据 集 ， 并 且 处 理 方式 也 可 以 各 不 相同 。 
可 以 将 它们 存储 到 不 同 的 服务 器 组 上 ， 但 这 并 不 是 必需 的 。 还 可 以 以 多 
种 方式 对 数据 进行 分 片 ， 这 取决 于 如 何 使 用 它们 。 下 文 我 们 会 举例 说 
明 。 





分 片 技术 和 大 多 数 应 用 的 最 初 设计 有 着 显著 的 差异 ， 并 且 很 难 将 应 
用 从 单一 数据 存储 转换 为 分 片 架构 。 如 果 在 应 用 设计 初期 就 已 经 预计 到 
分 片 ， 那 实现 起 来 就 容易 得 多 。 





许多 一 开始 没有 建立 分 片 染 构 的 应 用 都 会 碰 到 规模 扩大 的 情形 。 例 
如 ， 可 以 使 用 复制 来 扩展 博客 服务 的 读 碍 询 ， 直 到 它 不 再 雪 效 。 然 后 可 


以 把 服务 器 划分 为 三 个 部 分 : 用 户 信息 、 文 章 ， 以 及 评论 。 可 以 将 这 些 
数据 放 到 不 同 的 服务 器 上 按 功 能 划分 ) ， 也 许可 以 使 用 面向 服务 的 染 
构 ， 并 在 应 用 层 执行 联合 查询 。 图 11-6 显 示 了 从 单 台 服 务 器 到 按 功能 划 
分 的 演变 。 




















图 11-6: 从 单个 实例 到 按 功 能 划分 的 数据 存储 





最 后 ， 可 以 通过 用 户 ID 来 对 文章 和 评论 进行 分 片 ， 而 将 用 户 信息 保 
留 在 单个 节点 上 。 如 果 为 全 局 节点 配置 一 个 主 一 备 结构 并 为 分 片 节点 使 
用 主 一 主 结构 ， 最 终 的 数据 存储 可 能 如 图 11-7 所 示 。 








用 户 
全 局 数据 文章 











分 片 数 据 存储 





图 11-7: 一 个 全 局 节点 和 六 个 主 一 主 结构 节点 的 数据 存储 方式 


如 末 事 先知 道 应 用 会 扩大 到 很 大 的 规模 ， 并 且 清 楚 按 功能 划分 的 局 
限 性 ， 束 可 以 跳 过 中 间 步 骤 ， 直 接 从 单个 节操 升级 为 分 片 数 据 存 储 。 事 
实 上 ， 这 种 前 脆性 可 以 帮 你 避免 由 于 粗糙 的 分 片 方 案 带 来 的 挑战 。 
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片 数据 存储 之 间 通 信 的 复杂 度 ， 但 无 法 完全 隐藏 分 片 。 因 为 相 比 数 据 存 
储 ， 应 用 通常 更 了 解 跟 碍 询 相关 的 一 些 信息 。 太 多 的 抽象 会 导致 低 效 
率 ， 例 如 查询 所 有 的 节点 ， 可 实际 上 需要 的 数据 只 在 单一 节点 上 。 











分 片 数据 存储 看 起 来 像 是 优雅 的 解决 方案 ， 但 很 难 实 现 。 那 为 什么 
要 选择 这 个 架构 呢 ? 答案 很 简单 : 如 果 想 扩展 写 容 量 ， 就 必须 切 分 数 
据 。 如 有 果 只 有 单 台 主 库 ， 那 么 不 管 有 多 少 备 库 ， 与 容量 都 是 无 法 扩展 
的 。 对 于 上 述 缺 点 而 言 ， 数 据 分 片 是 我 们 衣 选 的 解决 方案 。 











这 是 一 个 问题 ， 对 吧 ? 答案 很 简单 : 如 非 必要 ， 尽 量 不 分 片 。 首 
先 看 是 否 能 通过 性 能 调 优 或 者 更 好 的 应 用 或 数据 库 设计 来 推迟 分 片 。 
如 果 能 足够 长 时 间 地 推迟 分 片 ， 也 许可 以 直接 购买 更 大 的 服务 器 ， 升 
级 MySQL 到 性 能 更 优 的 版 本 ， 然 后 继续 使 用 单 台 服务 器 ， 也 可 以 增加 
或 减少 复制 。 


简单 的 说 ， 对 单 台 服务 器 而 言 ， 数 据 大 小 或 写 负 载 变 得 太 大 时 ， 
分 片 将 是 不 可 避免 的 。 如 果 不 分 片 ， 而 是 尽 可 能 地 优化 应 用 ， 系 统 能 
扩展 到 什么 程度 呢 ? 答案 可 能 会 让 你 很 惊 讨 。 有 些 非常 受 欢 迎 的 应 
用 ， 你 可 能 以 为 从 一 开始 就 分 片 了 ， 但 实际 上 直到 已 经 值 数 十 亿美 元 
并 且 流 量 极其 巨大 也 还 没有 采用 分 片 的 设计 。 分 片 不 是 城 里 唯一 的 游 
戏 ， 在 没有 必要 的 情况 下 采用 分 片 的 架构 来 构建 应 用 会 步履 维 艰 。 





3. 选择 分 区 键 (partitioning key) 





数据 分 片 最 大 的 挑战 是 查找 和 获取 数据 : MAA ARR Ba RF UH fa 
进行 分 片 。 有 很 多 方法 ， 其 中 有 一 些 方法 会 比 力 外 一 些 更 好 。 





我 们 的 目标 是 对 那些 最 重要 并 且 频 繁 查 询 的 数据 减少 分 片 ( 记 住 ， 
可 扩展 性 法 则 的 其 中 一 条 就 是 要 避免 不 同 节点 间 的 交互 ) 。 这 其 中 最 重 
要 的 是 如 何 为 数据 选择 一 个 或 多 个 分 区 键 。 分 区 键 决定 了 每 一 行 分 配 到 
哪 一 个 分 片 中 。 如 果 知 道 一 个 对 象 的 分 区 键 ， 束 可 以 回答 如 下 两 个 问 


jel: 





。 应 该 在 哪里 存储 数据 ? 
。 应 该 从 哪里 取 到 和 希望 得 到 的 数据 ? 


后 面 将 展示 多 个 选择 和 使 用 分 区 键 的 方法 。 先 看 一 个 例子 。 假 设 像 
MySQL NDB Cluster 那 样 来 操作 ， 并 对 每 个 表 的 主键 使 用 哈 希 来 将 数据 
分 割 到 各 个 分 片 中 。 这 是 一 种 非常 简单 的 实现 ， 但 可 扩展 性 不 好 ， 因 为 
可 能 需要 频繁 检查 所 有 分 片 来 获得 需要 的 数据 。 例 如 ， 如 果 想 查看 user3 
的 博客 文章 ， 可 以 从 哪里 找到 呢 ? 由 于 使 用 主键 值 而 非 用 户 名 进行 分 
割 ， 博 客 文章 可 能 均匀 分 散在 所 有 的 数据 分 片 中 。 使 用 主键 值 哈 希 简化 
了 判断 数据 存储 在 何 处 的 操作 ， 但 却 可 能 增加 获取 数据 的 难度 ， 有 具体 取 
决 于 需要 什么 数据 以 及 是 否 知道 主键 。 




















跨 多 个 分 片 的 查询 比 单个 分 片上 的 查询 性 能 要 差 ， 但 只 要 不 涉及 太 
多 的 分 片 ， 也 不 会 太 糟 糕 。 最 糟 料 的 情况 是 不 知道 需要 的 数据 存储 在 哪 
里 ， 这 时 候 就 需要 扫描 所 有 分 片 。 








一 个 好 的 分 区 键 第 第 是 数据 库 中 一 个 非常 重要 的 实体 的 主键 。 这 些 
键 值 决定 了 分 片 单元 。 例 如 ， 如 果 通 过 用 户 ID 或 客户 端 ID 来 分 割 数据 ， 
分 片 单元 融 是 用 户 或 者 客户 端 








确定 分 区 键 一 个 比较 好 的 办 法 是 用 实体 一 关系 图 ， 或 一 个 等 效 的 能 
显示 所 有 实体 及 其 关系 的 工具 来 展示 数据 模型 。 尽 量 把 相关 联 的 实体 靠 
得 更 近 。 这 样 可 以 很 二 观 地 找 出 候选 分 区 键 。 当 然 不 要 仅仅 看 图 ， 同 样 
也 要 考虑 应 用 的 查询 。 即 使 两 个 实体 在 茶 些 方面 是 相关 联 的 ， 但 如 果 很 
少 或 几乎 不 对 其 做 关联 操作 ， 也 可 以 打 断 这 种 联系 来 实现 分 片 。 





茶 些 数据 模型 比 其 他 的 更 容易 进行 分 片 ， 具 体 取 决 于 实体 一 关系 图 
中 的 关联 性 程度 。 图 11-8 的 左边 展示 了 一 个 易于 分 片 的 数据 模型 ， 右 边 
的 那个 则 很 难 分 片 。 

















图 11-8: 两 个 数据 模型 ， 一 个 易于 分 片 ， 另 一 个 则 难以 分 片 


左边 的 数据 模型 比较 容易 分 片 ， 因 为 与 之 相连 的 子 图 中 大 多 数 市 后 
只 有 一 个 连接 ， 很 容易 切断 子 图 之 间 的 联系 。 右 边 的 数据 模型 则 很 难 分 
片 ， 因 为 它 没 有 类 似 的 子 图 。 竺 好 大 多 数 数据 模型 更 像 左 边 的 图 。 


选择 分 区 键 的 时 候 ， 尽 可 能 选择 那些 能 够 避免 路 分 片 查 询 的 ， 但 同 
时 也 要 让 分 片 足够 小 ， 以 免 过 大 的 数据 片 导 致 问题 。 如 果 可 能 ， 应 该 期 
望 分 片 尽 可 能 同样 小 ， 这 样 在 为 不 同 数量 的 分 片 进 行 分 组 时 能 够 很 容易 
平衡 。 例 如 ， 如 果 应 用 只 在 美国 使 用 ， 并 且 和 希望 将 数据 集 分 割 为 20 个 分 
片 ， 则 可 能 不 应 该 按照 州 来 划分 ， 因 为 加 利 福 尼 亚 的 人 口 非 常 多 。 但 可 











以 按照 县 或 者 电话 区 号 来 划分 ， 因 为 尽管 并 不 是 均匀 分 布 的 ， 但 足以 选 
择 20 个 集合 以 粗略 地 表示 等 同 的 密集 程度 ， 并 且 基 本 上 避免 跨 分 片 碍 
询 。 


4. 多 个 分 区 键 


复杂 的 数据 模型 会 使 数据 分 片 更 加 困难 。 许 多 应 用 拥有 多 个 分 区 
键 ， 特 别 是 存在 两 个 或 更 多 个 “维度 ”的 时 候 。 换 名 话说， 应 用 需要 从 不 
同 的 角度 看 到 有 效 且 连贯 的 数据 视图 。 这 意味 独 某 些 数 据 在 系统 内 至 少 
需要 存储 两 份 。 


例如 ， 需 要 将 博客 应 用 的 数据 按照 用 户 ID 和 文章 ID 进行 分 片 ， 因 为 
这 两 者 都 是 应 用 碍 询 数据 时 使 用 比较 普 过 的 方式 。 试 想 一 下 这 种 情形 : 
频繁 地 该 取 茶 个 用 户 的 所 有 文章 ， 以 及 茶 个 文章 的 所 有 评论 。 如 宋 按 用 
户 分 片 就 无 法 找到 菏 篇 文章 的 所 有 评论 ， 而 按 文章 分 片 则 无 法 找到 茶 个 
用 户 的 所 有 文章 。 如 果 和 希望 这 两 个 查询 都 落 到 同一 个 分 片上 ， 融 需要 从 
两 个 维度 进行 分 片 。 














需要 多 个 分 区 键 并 不 意味 着 需要 去 设计 两 个 完全 宛 余 的 数据 存储 。 
我 们 来 看 看 另 一 个 例子 ， 一 个 社交 网 站 下 的 读书 俱乐部 站 点 ， 该 站 点 的 
所 有 用 户 都 可 以 对 书 进行 评论 。 该 网 站 可 以 显示 所 有 书籍 的 所 有 评论 ， 
也 能 显示 某 个 用 户 已 经 读 过 或 评论 过 的 所 有 书籍 








假设 为 用 尸 数 据 和 书籍 数据 都 设计 了 分 片 数 据 存 储 。 而 评论 同时 拥 
有 用 户 ID 和 评论 ID， 这 样 就 路 越 了 两 个 分 片 的 边界 。 实 际 上 却 无 须 元 余 
存储 两 份 评论 数据 ， 葵 代 方 案 是 ， 将 评论 和 用 户 数据 一 起 存储 ， 然 后 把 
每 个 评论 的 标题 和 ID 与 书籍 数据 存储 在 一 起 。 这 样 在 泻 染 大 多 数 关 于 某 





本 书 的 评论 的 视图 时 无 须 同 时 访问 用 户 和 书籍 数据 存储 ， 如 有 果 需 要 显示 
完整 的 评论 内 容 ， 可 以 从 用 户 数据 存储 中 获得 。 





5. Peay A AW 





大 多 数 分 片 应 用 多 少 都 有 一 些 查 询 需 要 对 多 个 分 片 的 数据 进行 聚合 
或 关联 操作 。 例 如 ， 一 个 读书 俱乐部 网 站 要 显示 最 受 欢 迎 或 最 活跃 的 用 
户 ， 就 必须 访问 每 一 个 分 片 。 如 何 让 这 类 碍 询 很 好 地 执行 ， 是 实现 数据 
分 片 的 架构 中 最 困难 的 部 分 。 虽 然 从 应 用 的 角度 来 看 ， 这 是 一 条 奏 询 ， 
但 实际 上 需要 拆 分 成 多 条 并 行 执行 的 查询 ， 每 个 分 片上 执行 一 条 。 一 个 
设计 民 好 的 数据 库 抽 象 层 能 够 减轻 这 个 问题 ， 但 类 似 的 查询 仍然 会 比分 
片 内 查询 要 慢 并 且 更 加 昂 贯 ， 所 以 通 稼 会 更 加 依赖 缓存 。 





























一 些 语言 ， 如 PHP， 对 并 行 执行 多 条 查询 的 文 持 不 够 好 。 普 裔 的 做 
法 是 使 用 C 或 Java 编 写 一 个 辅助 应 用 来 执行 查询 并 聚合 结果 集 。PHP 应 
用 只 需要 查询 该 辅助 应 用 即 可 ， 例 如 Web 服 务 或 者 类 似 Gearman 的 工作 
者 服务 。 


路 分 片 查 询 也 可 以 借助 汇总 表 来 执行 。 可 以 近 历 所 有 分 片 来 生成 汇 
总 表 并 将 结果 在 每 个 分 片上 元 余 存 储 。 如 果 在 每 个 分 片上 存储 重复 数据 
太 过 当 费 ， 也 可 以 把 汇总 表 放 到 另外 一 个 数据 存储 中 ， 这 样 束 只 需要 存 
储 一 份 了 。 











未 分 片 的 数据 通常 存储 在 全 局 节点 中 ， 可 以 使 用 缓存 来 分 担负 载 。 





如 果 数 据 的 均衡 分 布 非常 重要 ， 或 者 没有 很 好 的 分 区 键 ， 一 些 应 用 
会 采用 随机 分 片 的 方式 。 分 布 式 检索 应 用 束 是 个 很 好 的 例子 。 这 种 场景 
下 ， 跨 分 片 伍 询 和 聚合 查询 非 第 第 见 。 跨 分 片 查 询 并 不 是 数据 分 厂 面 临 





的 唯一 难题 。 维 护 数据 一 致 性 同样 困难 。 外 键 无 法 在 分 片 间 工 作 ， 因 此 
再 要 由 应 用 来 检查 参照 一 致 性 ， 或 者 只 在 分 片 内 使 用 外 键 ， 因 为 分 片 内 
的 内 部 一 致 性 可 能 是 最 重要 的 。 还 可 以 使 用 XA 事务 ,但 由 于 开销 太 
大 ， 现 实 中 使 用 很 少 。 





还 可 以 设计 一 些 定期 执行 的 清理 过 程 。 例 如 ， 如 果 一 个 用 户 的 读书 
俱乐部 账号 到 期 ， 并 不 需要 立刻 将 其 移 除 。 可 以 写 一 个 定期 任务 将 用 户 
评论 从 每 个 书籍 分 片 中 移 除 。 也 可 以 写 一 个 检查 脚本 周期 性 运行 以 确保 
分 片 间 的 数据 一 致 性 。 


6. 分 配 数据 、 分 片 和 市 点 





分 片 和 市 点 不 一 定 是 一 对 一 的 关系 ， 应 该 尽 可 能 地 让 分 厂 的 大 小 比 
市 点 容量 小 很 多 ， 这 样 束 可 以 在 单个 节点 上 存储 多 个 分 片 。 








保持 分 片 足够 小 更 容易 管理 。 这 将 使 数据 的 备份 和 恢复 更 加 容易 ， 
如 果 表 很 小 ， 那 么 像 更 改 表 结 构 这 样 的 操作 会 更 加 容易 。 例 如 ， 假 设 有 
一 个 100GB 的 表 ， 你 可 以 直接 存储 ， 也 可 以 将 其 划分 为 100 个 1GB 的 分 
片 ， 并 存储 在 单个 节点 上 。 现 在 假如 要 向 表 上 增加 一 个 索引 ， 在 单个 
100GB 的 表 上 的 执行 时 间 会 比 100 个 1GB 分 片上 执行 的 总 时 间 更 长 ， 
为 1GB 的 分 片 更 容易 全 部 加 载 到 内 存 中 。 并 且 在 执行 ALTER TABLE 
还 会 导致 数据 不 可 用 ， 阻 塞 1GB 的 数据 比 阻 塞 100GB 的 数据 要 好 得 多 。 





小 一 点 的 分 片 也 便于 转移 。 这 有 助 于 重新 分 配 容量 ， 平 衡 各 个 节点 
的 分 片 。 转 移 分 片 的 效率 一 般 都 不 高 。 通 常 需要 先 将 受 影响 的 分 片 设置 
为 只 读 模式 《这 也 是 需要 在 应 用 中 构建 的 特性 ) ， 提 取 数据 ， 然 后 转移 
到 另外 一 个 节点 。 这 包括 使 用 mysqldump 获 取 数 据 然 后 使 用 mysql 命 令 将 








其 重新 导入 。 如 果 使 用 的 是 Percona Server， 可 以 通过 XtraBackup 在 服务 
器 间 转 移 文 件 ， 这 比 转 储 和 重新 载 入 要 高 效 得 多 。 





除了 在 节点 间 移 动 分 片 ， 你 可 能 还 需 
尽量 不 中 断 整 个 应 用 提供 服务 。 如 采 分 片 太 大 ， 就 很 难 通 过 移动 整个 分 
片 来 平衡 容量 ， 这 时 候 可 能 需要 将 一 部 分 数据 《例如 一 个 用 户 ) 转移 到 
其 他 分 片 。 分 片 间 转 移 数据 比 转移 分 片 要 更 复杂 ， 应 该 尽量 避免 这 人 么 
做 。 这 也 是 我 们 建议 设置 分 片 大 小 尽量 易于 管理 的 原因 之 一 。 


要 考虑 在 分 片 间 移 动 数据 ， 并 








分 片 的 相对 大 小 取决 于 应 用 的 需求 。 简 单 的 说 ， 我 们 说 的 “易于 管 
理 的 大 小 ”是 指 保持 表 足 够 小 ， 以 便 能 在 5 或 10 分 钟 内 提供 日 稼 的 维护 工 
作 ， 例 如 ALTER TABLE, CHECK TABLE 或 者 OPTIMIZE TABLE. 


如 果 将 分 片 设 置 得 太 小 ， 会 产生 太 多 的 表 ， 这 可 能 引发 文件 系统 或 
MySQL 内 部 结构 的 问题 。 男 外 太 小 的 分 片 还 会 寻 致 跨 分 片 查 询 增多 。 











7. FET EBB op 





via 2e OA xe ONY ET Ee BU Po A Pee H IIA: 


个 分 片 使 用 单一 数据 库 ， 并 且 数 据 库 名 要 相同 。 典 型 的 应 用 场景 
是 需要 每 个 分 片 都 能 镜像 到 原 应 用 的 结构 。 这 在 部 署 多 个 应 用 实 
例 ， 并 且 每 个 实例 对 应 一 个 分 片 时 很 有 用 。 

将 多 个 分 所 的 表 放 到 一 个 数据 库 中 ， 在 每 个 表 名 上 包含 分 片 号 〈 例 
如 bookclub. comments_23) 。 这 种 配置 下 ， 单 个 数据 库 可 以 支持 多 
个 数据 分 睫 。 

。 为 每 个 分 片 使 用 一 个 数据 库 ， 并 在 数据 库 中 包含 所 有 应 用 需要 的 

表 。 在 数据 库 名 中 包含 分 片 号 (例如 表 名 可 能 


从 


日 








是 bookclub 23. comments 7 bookclub 23. users 等 ) , {A# YA 

LTR TS. AMHER SEA as EF AN Ed SE A JE 
名 时 ， 这 种 做 法 很 常见 。 其 优点 是 无 须 为 每 个 分 片 专门 编写 查询 ， 

也 便于 对 只 使 用 单个 数据 库 的 应 用 进行 分 片 。 

每 个 分 片 使 用 一 个 数据 库 ， 并 在 数据 库 名 和 表 名 中 包含 分 片 号 〈 例 
如 表 名 可 以 是 bookclub 23. comments 23) . 

在 每 个 节点 上 运行 多 个 MySQL 实 例 ， 每 个 实例 上 有 一 个 或 多 个 分 

片 ， 可 以 使 用 上 面 提 到 的 方式 的 任意 组 合 来 安排 分 片 。 

















如 果 在 表 名 中 包含 了 分 片 写 ， 束 需要 在 伍 询 模板 里 插入 分 片 写 。 常 
用 的 方法 是 在 查询 中 使 用 特殊 的 “神奇 的 ? 占 位 符 ， 例 如 sprintfO 这 样 的 格 
式 化 函数 中 的 %s， 或 者 使 用 变量 做 字符 串 插 值 。 以 下 是 在 PHP 中 创建 得 
询 模板 的 方法 : 





$sql = "SELECT book_id, book_title FROM bookclub_%d.comments_' 


$res = mysql_query(sprintf($sql, $shardno, $shardno), $conn); 


也 可 以 就 使 用 字符 串 插 值 的 方法 : 


$sql = "SELECT book_id, book_title FROM bookclub_$shardno.com 


$res = mysql_query($sql, $conn); 











这 在 新 应 用 中 很 容易 实现 ， 但 对 于 已 有 的 应 用 则 有 点 困难 。 构 建新 
应 用 时 ， 碍 询 模板 并 不 是 问题 ， 我 们 倾向 于 使 用 每 个 分 片 一 个 数据 库 的 
方式 ， 并 把 分 片 号 写 到 数据 库 名 和 表 名 中 。 这 会 增加 例如 ALTER 
TABLE 这 类 操作 的 复杂 度 ， 但 也 有 如 下 一 些 优点 : 





。 如 果 分 片 全 部 在 一 个 数据 库 中 ， 转 移 分 片 会 比较 容易 。 
。 因为 数据 库 本 身 是 文件 系统 中 的 一 个 目录 ， 所 以 可 以 很 方便 地 管理 


二 个 分 片 的 义 件 。 

。 如 果 分 片 互 不 关联 ， 则 很 容易 查看 分 片 的 大 小 。 

。 全 局 唯一 表 名 可 避免 误 操 作 。 如 宁 表 名 每 个 地 方 都 相同 ， 很 容易 因 
为 连接 到 错误 的 节点 而 查询 了 错误 的 分 睫 ， 或 者 是 将 一 个 分 片 的 数 
据 误 导入 男 外 一 个 分 片 的 表 中 。 








你 可 能 想 知道 应 用 的 数据 是 否 具有 某 种 “分 片 亲 和 性 "。 也 许 将 某 些 
分 片 放 在 一 起 (在 同一 台 服务 器 ， 同 一 个 子 网 ， 同 一 个 数据 中 心 ， 或 者 
同一 个 交换 网 络 中 ) 可 以 利用 数据 访问 模式 的 相关 性 ， 能 够 带 来 些 好 
处 。 例 如 ， 可 以 按照 用 户 进行 分 片 ， 然 后 将 同一 个 国家 的 用 户 放 到 同一 
个 节点 的 分 片上 。 





为 已 有 的 应 用 增加 分 片 文 持 的 结果 往往 是 一 个 节点 对 应 一 个 分 片 。 
这 种 简化 的 设计 可 以 减少 对 应 用 查询 的 修改 。 分 片 对 应 用 而 言 通常 是 一 
种 颠覆 性 的 改变 ， 所 以 应 义 可 能 简化 它 。 如 果 在 分 片 后 ， 每 个 节点 看 起 
来 就 像 是 整个 应 用 数据 的 缩 略 图 ， 葡 无须 去 改变 大 多 数 碍 询 或 担心 得 询 
是 否 传 递 到 期 望 的 市 点 。 











8.， 回 定 分 配 


将 数据 分 配 到 分 片 中 有 两 种 主要 的 方法 国定 分 配 和 动态 分 配 。 两 
种 方法 都 需要 一 个 分 区 函数 ， 使 用 行 的 分 区 键 值 作为 输入 ， 返 回 存储 该 
行 的 分 片 。 针 


回 定 分 配 使 用 的 分 区 函数 仅仅 依赖 于 分 区 键 的 值 。 哈 硕 函 数 和 取 模 
运算 就 是 很 好 的 例子 。 这 些 函 数 按照 每 个 分 区 键 的 值 将 数据 分 散 到 一 定 
数量 的 “ 桶 ”中 。 


REALAN. UN BE Ss FEA P11 OE a. REH 
的 是 对 数字 求 模 的 方式 ， 答 案 很 简单 : 111 对 100 取 模 的 值 为 11， 所 以 应 
该 将 其 放 到 第 11 个 分 片 中 。 


而 如 果 使 用 CRC320 函 数 来 做 哈 希 ， 答 案 是 81。 


mysql> SELECT CRC32(111) % 100; 


+------------------+ 





回 定 分 配 的 主要 优点 是 简单 ， 开 销 低 ， 甚 至 可 以 在 应 用 中 直接 人 硬 编 
码 。 


但 固定 分 配 也 有 如 下 缺点 : 








如 宁 分 片 很 大 并 且 数 量 不 多 ， 台 很 难 平衡 不 同 分 片 间 的 负载 。 
固定 分 片 的 方式 无 法 目 定 义 数据 放 到 哪个 分 请 上， 这 一 点 对 于 那些 
在 分 片 间 负载 不 均衡 的 应 用 来 说 尤其 重要 。 一 些 数据 可 能 比 其 他 的 
更 加 活跃 ， 如 果 这 上 坚 热 点 数据 都 分 配 到 同一 个 分 片 中 ， 回 定 分 配 的 
方式 就 无 法 通过 热点 数 据 转移 的 方式 来 平衡 负载 。 如果 每 个 分 厂 
的 数据 量 切 分 得 比较 小 ， 这 个 问题 就 没 那么 严重 ， 根 据 大 数 定律 ， 
这 样 做 会 更 容易 将 热点 数据 平均 分 配 到 不 同 分 片 。) 

修改 分 片 策略 通 闻 比 较 困 难 ， 因 为 需要 重新 分 配 已 有 的 数据 。 例 
如 ， 如 果 通 过 模 10 的 哈 希 函数 来 进行 分 片 ， 残 会 有 10 个 分 片 。 如 果 
应 用 增长 使 得 分 片 变 大 ， 如 果 要 拆 分 成 20 个 分 片 ， 就 需要 对 所 有 数 
据 重 新 哈 希 ， 这 会 导致 更 新 大 量 数据 ， 并 在 分 片 间 转 移 数据 。 





正 是 由 于 这 些 限制 ， 我 们 倾 问 于 为 新 应 用 选择 动态 分 配 的 方式 。 但 
如 宁 是 为 已 有 的 应 用 做 分 片 ， 使 用 固定 分 配 策略 可 能 会 更 容易 些 ， 因 为 


它 更 简单 。 也 就 是 次 ， 大 多 数 使 用 固定 分 配 的 应 用 最 后 迟早 要 使 用 动态 
分 配 策略 。 


9. 动态 分 配 


另外 一 个 选择 是 使 用 动态 分 配 ， 将 每 个 数据 单元 映射 到 一 个 分 片 。 
假设 一 个 有 两 列 的 表 ， 包 括 用 户 ID 和 分 请 ID。 


CREATE TABLE user_to_shard ( 
user_id INT NOT NULL, 
shard_id INT NOT NULL, 
PRIMARY KEY (user_id) 

) ; 


这 个 表 本 身 就 是 分 区 函数 。 给 定 分 区 键 《用户 ID) 的 值 就 可 以 获得 


分 片 号 。 如 果 该 行 不 存在 ， 束 从 目标 分 片 中 找到 并 将 其 加 入 到 表 中 。 也 
可 以 推迟 更 新 一 一 这 就 是 动态 分 配 的 含义 。 








动态 分 配 增加 了 分 区 函数 的 开销 ， 因 为 需要 额外 调用 一 次 外 部 次 
源 ， 例 如 目录 服务 器 〈 存 储 映射 关系 的 数据 存储 节点 ) 。 出 于 效率 方面 
的 考虑 ， 这 种 架构 常常 需要 更 多 的 分 层 。 例 如 ， 可 以 使 用 一 个 分 布 式 组 
存 系统 将 目录 服务 器 的 数据 加 载 到 内 存 中 ， 因 为 这 些 数据 平时 改动 很 
小 。 或 者 更 普遍 地 ， 你 可 以 直接 向 USERS 表 中 增加 一 个 shard_id 列 用 于 
存储 分 片 号 。 








动态 分 配 的 最 大 好 处 是 可 以 对 数据 存储 位 置 做 细 粒 度 的 控制 。 这 使 
得 均衡 分 配 数据 到 分 片 更 加 容易 ， 并 可 提供 适应 未 知 改变 的 灵活 性 。 


动态 映射 可 以 在 简单 的 键 一 分 片 〈key-to-shard) 映射 的 基础 上 建立 
多 层次 的 分 片 策略 。 例 如 ， 可 以 建立 一 个 双重 映射 ， 将 每 个 分 片 单元 指 
定 到 一 个 分 组 中 《例如 ， 读 书 俱 乐 部 的 用 户 组 ) ， 然 后 尽 可 能 将 这 些 组 
保持 在 同一 个 分 片 中 。 这 样 可 以 利用 分 片 杀 和 性 ， 避 免 路 分 片 查 询 。 


如 果 使 用 动态 分 配 集 略 ， 可 以 生成 不 均衡 的 分 请。 如 果 服 务 占 能 
不 相同 ， 或 者 希望 将 其 中 一 些 分 片 用 于 特定 目的 “例如 归档 数据 》 ， 这 
可 能 会 有 用 。 如 果 能 够 做 到 随时 重新 平衡 分 片 ， 也 可 以 为 分 片 和 节 扣 间 
维持 一 一 对 应 的 映射 关系 ， 这 不 会 浪费 容量 。 也 有 些 人 豆 欢 简单 的 每 个 
节点 一 个 分 片 的 方式 。〔 但 是 请 记 住 ， 保 持 分 片 尽 可 能 小 是 有 好 处 
的 。) 动态 分 配 以 及 灵活 地 利用 分 片 亲 和 性 有 助 于 减轻 规模 扩大 而 融 来 
的 路 分 片 查 询问 题 。 假 设 一 个 路 分 片 查 询 涉 及 四 个 节点 ， 当 使 用 固定 分 
配 时 ， 任 何 给 定 的 碍 询 可 能 需要 访问 所 有 分 片 ， 但 动态 分 配 策略 则 可 能 
只 需要 在 其 中 的 三 个 节点 上 运行 同样 的 查询 。 这 看 起 来 没什么 大 区 别 ， 
但 考虑 一 下 当 数 据 存 储 增 加 到 400 个 分 片 时 会 发 生 什 么 ? 固定 分 配 策略 
需要 访问 400 个 分 片 ， 而 动态 分 配方 式 依然 只 需要 访问 3 个 。 


























动态 分 配 可 以 让 分 片 策略 根据 需要 变 得 很 复杂 。 固 定 分 配 则 没有 这 
么 多 选择 。 





10. 混合 动态 分 配 和 国定 分 配 


可 以 混合 使 用 固定 分 配 和 动态 分 配 。 这 种 方法 通常 很 有 用 ， 有 时 候 
甚至 必须 要 混合 使 用 。 目 录 映 射 不 太 大 时 ， 动 态 分 配 可 以 很 好 胜任 。 但 
如 果 分 片 单元 太 多 ， 效 果 就 会 变 产 。 


以 一 个 存储 网 站 链接 的 系统 为 例 。 这 样 一 个 站 点 需要 存储 数 百 亿 的 


行 ， 所 使 用 的 分 区 键 是 源 地 址 和 目的 地 址 URL 的 组 合 。《〈 这 两 个 UREL 的 
任意 一 个 都 可 能 有 好 几 亿 的 链接 ， 因 此 ， 单 独 一 个 URL 并 不 适合 做 分 区 
键 ) 。 但 是 在 映射 表 中 存储 所 有 的 源 地 址 和 目的 地 址 URL 组 合并 不 合 
理 ， 因 为 数据 量 太 大 了 ， 每 个 URL 都 需要 很 多 存储 空间 。 











一 个 解决 方案 是 将 URL 相 连 并 将 其 哈 希 到 固定 数目 的 桶 中 ， 然 后 把 
桶 动态 地 上 映射 到 分 请 上。 如 果 桶 的 数目 足够 大 一 一 例如 100 万 个 一 一 你 
就 能 把 大 多 数 数据 分 配 到 每 个 分 片上 ， 获 得 动态 分 配 的 大 部 分 好 处 ， 而 
无 须 使 用 庞大 的 映射 表 。 








11. 显 式 分 配 





第 三 种 分 配 策略 是 在 应 用 插入 新 的 数据 行 时 ， 显 式 地 选择 目标 分 
片 。 这 种 策略 在 已 有 的 数据 上 很 难 做 到 。 上 所 以 在 为 应 用 增加 分 片 时 很 少 
使 用 。 但 在 茶 些 情况 下 还 是 有 用 的 。 





这 个 方法 是 把 数据 分 片 号 编码 到 ID 中 ， 这 和 之 前 提 到 的 避免 主 一 主 
复制 主键 冲突 集 略 比较 相似 。 详情 请 参阅 “在 主 一 主 复制 结构 中 写 入 
pees.) 





例如 ， 假 设 应 用 要 创建 一 个 用 户 3， 将 其 分 配 到 第 11 个 分 片 中 ， 并 
使 用 BIGINT 列 的 高 八 位 来 保存 分 片 号 。 这 样 最 终 的 ID 就 是 (11<<56) +3, 
即 792633534417207299。 应 用 可 以 很 方便 地 从 中 抽取 出 用 户 人 和 分 片 
号 ， 如 下 例 所 示 。 


mysql> SELECT (792633534417207299 >> 56) AS shard_id, 
-> 792633534417207299 & ~(11 << 56) AS user_id; 
+----------+---------+ 


+----------+---------+ 


+----------+---------+ 


现在 假设 要 为 该 用 户 创建 一 条 评论 ， 并 存储 在 同一 个 分 片 中 。 应 用 
可 以 为 该 用 户 分 配 一 个 评论 ID ” 5， 然 后 以 同样 的 方式 组 合 5 和 分 片 号 
11. 


这 种 方法 的 好 处 是 每 个 对 象 的 ID 同时 包含 了 分 区 键 ， 而 其 他 方法 通 
常 需 要 一 次 关联 或 得 找 来 确定 分 区 键 。 如 果 要 从 数据 库 中 检索 茶 个 特定 
的 评论 ， 无 须知 道 哪个 用 户 拥有 它 ; 对 象 ID 会 告诉 你 到 哪里 去 找 。 如 采 
对 象 是 通过 用 户 ID 动态 分 片 的 ， 就 得 先 找 到 该 评论 的 用 户 ， 然 后 通过 目 
录 服 务 器 找到 对 应 的 数据 分 片 。 














另 一 个 解决 方案 是 将 分 区 键 存储 在 一 个 单独 的 列 里 。 例 如 ， 你 可 能 
从 不 会 单独 引用 评论 5， 但 是 评论 5 属于 用 户 3。 这 种 方法 可 能 会 让 一 些 
人 高 兴 ， 因 为 这 不 违背 第 一 范式 ;然而 额外 的 列 会 增加 开销 、 编 码 ， 以 
及 其 他 不 便 之 处 。 (这 也 是 我 们 将 两 值 存在 单独 一 列 的 优点 之 一 。) 





显 式 分 配 的 缺点 是 分 片 方式 是 固定 的 ， 很 难 做 到 分 片 间 的 负载 均 
衡 。 但 结合 固定 分 配 和 动态 分 配 ， 该 方法 就 能 够 很 好 地 工作 。 不 再 像 之 
前 那样 哈 硕 到 固定 数目 的 桶 里 并 将 其 映射 到 节点 ， 而 是 将 棚 作 为 对 象 的 
一 部 分 进行 编码 。 这 样 应 用 就 能 够 控制 数据 的 存储 位 置 ， 因 此 可 以 将 相 
关联 的 数据 一 起 放 到 同样 的 分 片 中 。 


BoardReader (http://boardreader.com) 使 用 了 该 技术 的 一 个 变种 : 
它 把 分 区 键 编码 到 Sphinx 的 文档 ID 内 。 这 使 得 在 分 片 数据 存储 中 查找 每 
个 查询 结果 的 关联 数据 变 得 容易 ， 更 多 关于 Sphinx 的 内 容 可 以 查阅 附录 
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情况 下 我 们 并 不 推荐 这 样 用 。 我 们 倾 问 于 尽 可 能 使 用 动态 分 配 ， 避 免 显 
式 分 配 。 


12. 重新 均衡 分 亡 数 气 


如 有 必要 ， 可 以 通过 在 分 片 间 移 动 数据 来 达到 负载 均衡 。 举 个 例 
子 ， 许 多 读者 可 能 听 一 些 大 型 图 片 分 享 网 站 或 流行 社区 网 站 的 开 友 者 所 
到 过 用 于 分 片 间 移 动用 户 数 据 的 工具 。 在 分 片 间 移 动 数据 的 好 处 很 明 
显 。 例 如 ， 当 需要 升级 硬件 时 ， 可 以 将 用 户 数据 从 旧 分 片 转移 到 新 分 片 
上 ， 而 无 须 暂 停 整 个 分 片 的 服务 或 将 其 设置 为 只 读 。 





然而 ， 我 们 也 应 该 尽量 避免 重新 均衡 分 片 数 据 ， 因 为 这 可 能 会 影响 
用 户 使 用 。 在 分 片 间 转 移 数据 也 使 得 为 应 用 增加 新 特性 更 加 困难 ， 因 为 
新 特性 可 能 还 需要 包含 针对 重新 均衡 脚本 的 升级 。 如 果 分 片 足够 小 ， 束 
无 须 这 么 做 ; 也 可 以 经 党 移动 整个 分 片 来 重新 均衡 负载 ， 这 比 移 动 分 厂 
中 的 部 分 数据 要 容易 得 多 (并 且 以 每 行 数据 开销 来 衡量 的 话 ， 更 有 效 
HB) 











一 个 较 好 的 集 略 是 使 用 动态 分 片 集 略 ， 并 将 新 数据 随机 分 配 到 分 厂 
中 。 当 一 个 分 睛 快 满 时 ， 可 以 设置 一 个 标志 位 ， 告 诉 应 用 不 要 再 往 这 里 
放 数 据 了 。 如 果 未 来 需要 问 分 片 中 放 入 更 多 数据 ， 可 以 直接 把 标记 位 清 
除 。 





假设 安装 了 一 个 新 的 MySQL 节 点 ， 上 面 有 100 个 分 片 。 移 将 它们 的 
标记 设置 为 1， 这 样 应 用 就 知道 它们 正 准 备 接受 新 数据 。 一 旦 它们 的 数 


据 足 够 多 时 《例如 ， 每 个 分 片 10 ”000 个 用 户 ) ， 就 把 标记 位 设置 为 0。 
之 后 ， 如 果 市 把 因为 大 量 废弃 账号 导致 儿 载 不 足 ， 可 以 重新 打开 一 些 分 
片 问 其 中 增加 新 用 户 。 


如 果 升 级 应 用 并 且 增 加 的 新 特性 会 导致 每 个 分 片 的 查询 负载 升 高 ， 
或 者 只 是 算 错 了 负载 ， 可 以 把 一 些 分 片 移 到 新 节点 来 减轻 负载 。 缺 点 是 
操作 期 间 整 个 分 片 会 变 成 只 读 或 者 处 于 离线 状态 。 这 需要 根据 实际 情况 
来 看 是 否 能 接受 。 





另外 一 种 使 用 得 较 多 的 策略 是 为 每 个 分 片 设置 两 台 备 库 ， 每 个 备 库 
都 有 该 分 片 的 完整 数据 。 然 后 每 个 备 库 负 贡 其 中 一 半 的 数据 ， 并 完全 停 
止 在 主 库 上 得 询 。 这 样 每 个 备 库 都 会 有 一 半 它 不 会 用 到 的 数据 ;我 们 可 
以 使 用 一 些 工 具 ， 例 如 Percona Toolkit 的 pt-archiver， 在 后 台 运 行 ， 移 除 
那些 不 再 需要 的 数据 。 这 种 办 法 很 简单 并 且 几 乎 不 需要 停机 。 











13. 生成 全 局 唯一 ID 





当 和 希望 把 一 个 现 有 系统 转换 为 分 片 数据 存储 时 ， 经 常会 需要 在 
机 器 上 生成 全 局 唯一 JD。 单一 数据 存储 时 通常 可 以 使 用 
AUTO_INCREMENT 列 来 获取 唯一 JD。 但 涉及 多 台 服 务 器 时 就 不 凑 效 
了 。 以 下 几 种 方法 可 以 解决 这 个 问题 : 


Ny 


Zs 
口 








i Flauto_increment_increment#zauto_increment_offset 


这 两 个 服务 器 变量 可 以 让 MySQL 以 期 望 的 值 和 偏 移 量 来 增加 
AUTO_INCREMENT 列 的 值 。 举 一 个 最 简单 的 场景 ， 只 有 两 台 服 务 
器 ， 可 以 配置 这 两 台 服 务 占 自 增 幅度 为 2， 其 中 一 台 的 偏 移 量 设 置 











为 1， 另 外 一 人 台 为 2《〈 两 个 都 不 可 以 设置 为 0) 。 这 样 一 全 服务 器 总 
是 包含 偶数 ， 另 外 一 台 则 总 是 包含 奇数 。 这 种 设置 可 以 配置 到 服务 
器 的 每 一 个 表 里 。 





这 种 方法 简单 ， 并 且 不 依赖 于 茶 个 节点 ， 因 此 是 生成 唯一 ID 的 
比较 普遍 的 方法 。 但 这 需要 非常 仔细 地 配置 服务 器 。 很 容易 因为 配 
置 错误 生成 重复 数字 ， 特 别 是 当 增 加 服务 器 需要 改变 其 角色 ， 或 进 
行 灾 难 恢复 时 。 











全 局 节点 中 创建 表 





在 一 个 全 局 数据 库 节 点 中 创建 一 个 包含 AUTO_INCREMENT 列 
的 表 ， 应 用 可 以 通过 这 个 表 来 生成 唯一 数字 。 





使 用 memcached 


在 memcached 的 API 中 有 一 个 incr() 函 数 ， 可 以 自动 增长 一 个 数 
字 并 返回 结果 。 另 外 也 可 以 使 用 Redis。 


批量 分 配 数字 
应 用 可 以 从 一 个 全 局 节点 中 请 求 一 批 数字 ， 用 完 后 再 申请 。 


使 用 复合 值 





可 以 使 用 一 个 复合 值 来 做 唯一 JID， 例如 分 片 号 和 自 增 数 的 组 
合 。 有 具体 参阅 之 前 的 章节 。 





使 用 GUI1D 值 


可 以 使 用 UUID () 函数 来 生成 全 局 唯一 值 。 注 意 ， 尽 管 这 个 函数 
在 基于 语句 的 复制 时 不 能 正确 复制 ， 但 可 以 先 获得 这 个 值 ， 再 存放 
到 应 用 的 内 存 中 ， 然 后 作为 数字 在 查询 中 使 用 。GUID 的 值 很 大 并 
且 不 连续 ， 因 此 不 适合 做 PmnoDB 表 的 主键 。 有 具体 参考 < 和 InnoDB 主 
键 一 致 地 捅 入行”。 在 5.1 及 更 新 的 版 本 中 还 有 一 个 函 
数 UUID_SHORT () ， 能 够 生成 连续 的 值 ， 并 使 用 64 位 代替 了 之 前 的 
128 位 。 








如 果 使 用 全 局 分 配器 来 产生 唯一 ID， 要 注意 避免 单 点 争 用 成 为 应 用 
HITE He HLA 


虽然 memcached 方 法 执行 速度 快 〈 每 秒 数 万 个 值 ) ， 但 不 具备 持久 
性 。 每 次 重启 memcached 服 务 都 需要 重新 初始 化 绥 存 里 的 值 。 由 于 需要 
首先 找到 所 有 分 片 中 的 最 大 值 ， 因 此 这 一 过 程 非常 缓慢 并 且 难 以 实现 原 
子 性 。 





14. LA 


在 设计 数据 分 片 应 用 时 ， 首 先 要 做 的 事情 是 编写 能 够 查询 多 个 数据 
源 的 代码 。 

如 休 疫 有 任何 抽象 层 ， 直 接 让 应 用 访问 多 个 数据 源 ， 那 绝对 是 一 个 
很 差 的 设计 ， 因 为 这 会 增加 大 量 的 编码 复杂 性 。 最 好 的 办 法 是 将 数据 源 
隐藏 在 抽象 层 中 。 这 个 抽象 层 主 要 完成 以 下 任务 : 








。 连 接 到 正确 的 分 片 并 执行 查询 。 
。 分 布 式 一 致 性 校 验 。 
。 跨 分 片 结果 集聚 合 。 


。 路 分 片 关联 操作 。 

。 锁 和 事务 管理 。 

。 创建 新 的 数据 分 片 〈 或 者 至 少 在 运行 时 找到 新 分 片 ) 并 重新 平衡 分 
Fr (如 果 有 了 时间 实 现 ) 。 


你 可 能 不 需要 从 头 开 始 构建 分 片 结构 。 有 一 些 工 具 和 系统 可 以 提供 
一 些 必 要 的 功能 或 专门 设计 用 来 实现 分 片 架构 。 


Hibernate Shards (http://shards.hibernate.org) 是 一 个 支持 分 片 的 数 
据 库 抽象 层 ， 基 于 Java 语 言 的 开源 的 Hibernate ORM 库 扩展 ， 由 谷歌 提 
供 。 它 在 Hibernate Core 接口 上 提供 了 分 片 感知 功能 ， 所 以 应 用 无 须 专 
Aa iit; 事实 上 ， 应 用 甚至 无 须知 道 它 正在 使 用 分 片 。Hibernate 
Shards 通过 固定 分 配 策略 同 分 片 分 配 数 据 。 男 外 一 个 基于 Java 的 分 片 系 
统 是 HiveDB (http:/www.hivedb.org) 。 








如 果 使 用 的 是 PHP 语 言 ， 可 以 使 用 Justin Swanhart 提 供 的 Shard- 
Query 系 统 Chttp://code.google.com/p/shard-query/) ， 它 可 以 自动 分 解 查 
询 ， 并 发 执行 ， 并 合并 结果 集 。 另 外 一 些 有 同样 用 途 的 商用 系统 有 
ScaleBase Chttp:/www.scalebase.com) 、 

ScalArc Chttp://www.scalarc.com) ， 以 及 
dbShards (http:/www.dbshards.com) 。 


Sphinx 是 一 个 全 文 检索 引擎 ， 虽 然 不 是 分 片 数据 存储 和 检索 系统 ， 
但 对 于 一 些 跨 分 片 数 据 存储 的 查询 依然 有 用 。Sphinx 可 以 并 行 查 询 远 程 
RAR ARE. FEM SEH SEAN ve Sphinx. 


11.2.5 ”通过 多 实例 扩展 


一 个 分 片 较 多 的 架构 可 能 会 更 有 效 地 利用 人 硬件。 我 们 的 研究 和 经 验 
表明 MySQL 并 不 能 完全 发 挥 现代 硬件 的 性 能 。 当 扩展 到 超过 24 个 CPU 
核心 时 ，MySQL 的 性 能 开始 趋 于 平缓 ， 不 再 上 升 。 当 内 存 超 过 128GB 时 
也 同样 如 此 ，MySQL 甚 至 不 能 完全 发 挥 诸如 Virident 或 Fusion-io 卡 这 样 
的 高 端 PCIe flash 设 备 的 MO 性 能 。 





不 要 在 一 全 性 能 强悍 的 服务 器 上 只 运行 一 个 服务 器 实例 ， 我 们 还 有 
别 的 选择 。 你 可 以 让 数据 分 片 足够 小 ， 以 使 每 台 机 器 上 都 能 放置 多 个 分 
片 〈 这 也 是 我 们 一 直 提倡 的 ) ， 每 侣 服务 器 上 运行 多 个 实例 ， 然 后 划分 
服务 器 的 人 硬件 资源 ， 将 其 分 配给 每 个 实例 。 





这 样 做 尽管 比较 烦琐 ， 但 确实 有 效 。 这 是 一 种 和 同上 扩展 和 同 外 扩展 
的 组 合 方 采 。 也 可 以 用 其 他 方法 来 实现 一 一 不 一 定 需 要 分 片 一 一 但 分 片 
对 于 在 大 型 服务 器 上 的 联合 扩展 具有 天 然 的 适应 性 。 








一 些 人 倾 各 于 通过 虚拟 化 技术 来 实现 合并 扩展 ， 这 有 它 的 好 处 。 但 
虚拟 化 技术 本 里 有 很 大 的 性 能 损耗 。 具 体 损耗 多 少 取决 于 具体 的 技术 ， 
但 通常 都 比较 明显 ， 尤 其 是 VO 非常 快 的 时 候 损 耗 会 非 第 惊人 。 男 一 种 
选择 是 运行 多 个 MySQL 实 例 ， 每 个 实例 监听 不 同 的 网 络 端口 ， 或 绑 定 
到 不 同 的 了 地 址 。 





我 们 已 经 在 一 台 性 能 强悍 的 硬件 上 获得 了 10 倍 或 15 倍 的 合并 系数 。 
你 需要 平衡 管理 复杂 度 代 价 和 更 优 性 能 的 收益 ， 以 决定 哪 种 方法 是 最 优 
的 。 





这 时 候 网 络 可 能 会 成 为 瓶颈 一 一 这 个 问题 大 多 数 MYSQL 用 户 都 不 
会 过 到 。 可 以 通过 使 用 多 块 网 卡 并 进行 绑 定 来 解决 这 个 问题 。 但 Linux 
内 核 可 能 会 不 理想 ， 这 取决 于 入 核 版 本 ， 因 为 老 的 内 核对 每 个 绑 定 设备 


的 网 络 中 断 只 能 使 用 一 个 CPU。 因 此 不 要 把 太 多 的 连 线 绑 定 到 很 少 的 虚 
拟 设备 上 ， 人 否则 会 遇 到 内 核 层 的 网 络 瓶 宽 。 新 的 内 核 在 这 一 方面 会 有 所 
改善 ， 所 以 需要 检查 你 的 系统 版 本 ， 以 确定 该 怎么 做 。 


另 一 个 方法 是 将 每 个 MySQL 实 例 绑 定 到 特定 的 CPU 核心 上 。 这 有 
两 点 好 处 : 第 一 ， 由 于 MySQL 内 部 的 可 扩展 性 限制 ， 当 核心 数 较 少 
时 ， 能 够 在 每 个 核心 上 获得 更 好 的 性 能 ;第 二 ， 当 实例 在 多 个 核心 上 运 
行 线程 时 ， 由 于 需要 在 多 核心 上 同步 共享 数据 ， 因 而 会 有 一 些 额外 的 开 
销 。 这 可 以 避免 便 件 本 身 的 可 扩展 性 限制 。 限 制 MySQL 到 少数 几 个 核 
心 能 够 帮助 减少 CPU 核心 之 间 的 交互 。 注 意 到 反复 出 现 的 问题 了 没 ? 将 
进程 绑 定 到 具有 相同 物理 套 接 字 的 核心 上 可 以 获得 最 优 的 效果 。 


11.2.6 ”通过 集群 扩展 


理想 的 扩展 方案 是 单一 逻辑 数据 库 能 够 存储 尽 可 能 多 的 数据 ， 处 理 
尽 可 能 多 的 查询 ， 并 如 期 望 的 那样 增长 。 许 多 人 的 第 一 想法 束 是 建立 一 
个 “集群 ?或 者 “网 格 ? 来 无 颖 处 理 这 些 事情 ， 这 样 应 用 就 无 须 去 做 太 多 工 
作 ， 也 不 需要 知 着 数据 到 撒 存 在 哪 合 服务 器 上 。 随 铸 云 计算 的 流行 ， 目 
动 扩展 一 一 根据 负载 或 数据 大 小 变化 动态 地 在 集群 中 增加 / 移 除 服务 器 
一 一 释 得 越 来 越 有 趣 。 

















在 本 书 第 二 版 时 ， 我 们 遗憾 地 看 到 已 有 的 技术 无 法 完成 这 一 任务 。 
从 那 时 开始 ， 出 现 了 许多 被 称 为 NoSQL 的 技术 。 许 多 NoSQL 的 支持 者 
发 表 了 一 些 奇怪 且 未 经 证 实 的 观点 ， 例 如 “关系 模型 无 法 进行 扩展 ”， 或 
者 “SQL 无 法 扩展 ”。 随 着 新 概念 的 出 现 ， 也 出 现 了 一 些 新 的 术语 。 最 近 
谁 没有 听 说 过 最 终 一 致 性 、BASE、 矢 量 时 钟 ， 或 者 CAP 理 论 呢 ? 








但 随 着 时 间 推 移 ， 理 性 开始 逐渐 回归 。 经 验 表 明 许 多 NoSQL 数 据 库 
太 过 于 简单 ， 并 且 无 法 完成 很 多 工作 鸟 。 同 时 一 些 基于 SQL 的 技术 开始 
出 现 一 一 例如 451 集 团 (451 Group) 的 Matt Aslett 所 提 到 的 NewSQL 数 据 
库 。SQL 和 NewSQL 到 底 有 什么 区 别 呢 ? NewSQL 数 据 库 中 SQL 及 相关 
技术 都 不 应 该 成 为 问题 。 而 可 扩展 性 问题 在 关系 型 数据 库 中 是 一 个 实现 
上 的 难题 ， 但 新 的 实现 正 表现 出 越 来 越 好 的 结果 。 














所 有 的 旧事 物 都 变 成 新 的 了 吗 ? 是 ， 但 也 不 是 。 许 多 关系 型 数据 库 
集群 的 高 性 能 设计 正在 被 构建 到 系统 的 更 低层 ， 在 NoSQL 数 据 库 中 ， 特 
别 是 使 用 键 一 值 存储 时 ， 这 一 点 很 明显 。 例 如 NDB Cluster 并 不 是 一 个 
SQL 数据 库 ; 它 是 一 个 可 扩展 的 数据 库 ， 使 用 其 原生 API 来 控制 ， 通 常 
是 使 用 NoSQL， 但 也 可 以 通过 在 前 端 使 用 MySQL 存 储 引 擎 来 文 持 
SQL。 它 是 一 个 完全 分 布 式 、 非 共享 高 性 能 、 自 动 分 片 并 且 不 存在 单 点 
故障 的 事务 型 数据 库 服 务 器 。 最 近 几 年 正 变 得 更 强大 、 更 复杂 ， 用 途 也 
更 广泛 。 同 时 ，NoSQL 数 据 库 也 逐渐 看 起 来 越 来 越 像 关系 型 数据 库 。 有 
些 甚至 还 开发 了 类 SQL 碍 询 语言 。 未 来 典型 的 集群 数据 库 可 能 更 像 是 
SQL 和 NoSQL 的 混合 体 ， 有 多 种 存 取 机 制 来 满足 不 同 的 使 用 需求 。 所 
以 ， 我 们 在 从 NoSQL 中 汲取 优点 ， 但 SQL 仍然 会 保留 在 集群 数据 库 中 。 





























在 写作 本 书 时 ， 和 MySQL 结 合 在 一 起 的 集群 或 分 布 式 数据 库 技术 
大 致 包 括 : NDB Cluster、Clustrix、Percona XtraDB Cluster. Galera, 
Schooner Active Cluster, Continuent Tungsten. ScaleBase、ScaleArc、 
dbShards、Xeround、Akiban、VoltDB， 以 及 GenieDB。 这 些 或 多 或 少 以 
MySQL 为 基础 ， 或 通过 MySQL 进 行 控 制 ， 或 是 和 MySQL 相 关 。 本 书 会 
讲 到 这 其 中 的 一 部 分 一 一 例如 ， 在 第 13 章 我 们 会 讲 到 Xeround， 在 第 10 
章 我 们 讲 到 了 Continuent Tungsten 和 其 他 几 种 技术 一 一 这 里 我 们 同样 会 
对 其 中 的 几 个 进行 描述 。 


在 开始 前 ， 需 要 指出 ， 可 扩展 性 、 高 可 用 性 、 事 务 性 等 是 数据 库 系 
统 的 不 同 特性 。 许 多 人 会 感到 困惑 并 将 这 些 当 作 是 相同 的 东西 ， 但 事实 
上 不 是 。 本 章 我 们 主要 集中 讨论 可 扩展 性 。 但 事实 上 ， 可 扩展 的 数据 库 
并 不 一 定 非常 优秀 ， 除 非 它 能 保证 高 性 能 ， 谁 愿意 牺牲 高 可 用 性 来 进行 
扩展 呢 ? 这 些 特性 的 组 合 堪 称 数据 库 的 必 杀 技 ， 但 这 很 难 实现 。 当 然 这 
不 是 本 章 要 讨论 的 内 容 。 











最 后 ， 除 NDB Cluster 外 ， 大 多 数 NewSQL 集 群 产 品 都 是 比较 新 的 事 
物 。 我 们 还 没有 看 到 足够 多 的 生产 环境 部 署 以 完全 获知 其 优点 和 限制 。 
尽管 它们 提 到 了 MySQL 协 议 或 其 他 与 MySQL 相 关 的 地 方 ， 但 它们 毕竟 
不 是 MySQL， 因 此 不 在 本 书 讨论 的 范围 内 。 我 们 仅仅 稍微 提 一 下 ， 由 
你 自己 来 判断 它们 是 否 适 用 。 


1. MySQL Cluster (NDB Cluster ) 


MySQL ”Cluster 是 两 项 技术 的 结合 : NDB 数 据 库 ， 以 及 作为 SQL 前 
端的 MySQL 存 储 引 擎 。NDB 是 一 个 分 布 式 、 有 具备 容错 性 、 非 共享 的 数 
据 库 ， 提 供 同 步 复 制 以 及 节点 间 的 数据 自动 分 片 。NDB Cluset 存 储 引擎 
将 SQL 转 换 为 NDB API 调 用 ， 但 遇 到 NDB 不 支持 的 操作 时 ， 就 会 在 
MySQL 服 务 器 上 执行 “NDB 是 一 个 键 一 值 数据 存储 ， 无 法 执行 类 似 联 
接 或 聚合 的 复杂 操作 ) 。 





NDB 是 一 个 非常 复杂 的 数据 库 ， 和 MySQL 几 乎 完全 不 同 。 在 使 用 
NDB 时 其 至 可 以 不 需要 MySQL: 你 可 以 把 它 作 为 一 个 独立 的 键 一 值 数 
据 库 服务 器 。 它 的 腕 点 包括 非常 高 的 号 入 和 按键 查询 各 吐 量 。NDB 可 以 
基于 键 的 哈 希 自动 决定 哪个 节点 应 该 存储 给 定 的 数据 。 当 通过 MySQL 
来 控制 NDB 时 ， 行 的 主键 就 是 键 ， 其 他 的 列 是 值 。 

















因为 它 基 于 一 些 新 的 技术 ， 并 且 集 群 具 有 容错 性 和 分 布 式 特性 ， 所 
以 管理 NDB 需 要 非常 专业 和 特殊 的 技能 。 有 许多 动态 变化 的 部 分 ， 还 有 
类 似 升级 集群 或 增加 节点 的 操作 必须 正确 执行 以 防止 意外 的 问题 。NDB 
是 一 项 开源 技术 ， 但 也 可 以 从 Oracle 购 买 商 业 文 持 。 商 业 文 持 中 包括 能 
够 获得 专门 的 集群 管理 产品 Cluster Manager， 可 以 自动 执行 一 些 枯燥 且 
环 手 的 任务 。 (Severalnines 同 样 提供 了 一 个 集群 管理 产品 ， 参 见 


http://www. severalnines.com) 。 








MySQL ”Cluster 正 在 迅速 地 增加 越 来 越 多 的 特性 和 功能 。 例 如 在 最 
近 的 版 本 中 ， 它 开始 文 持 更 多 类 型 的 集群 变更 而 无 有 顷 停 机 操作 ， 并 且 能 
够 在 数据 存储 的 节点 上 执行 一 些 特定 类 型 的 查询 ， 以 减少 数据 传递 给 
MySQL 层 并 在 其 中 执行 查询 的 必要 性 。〔 这 个 特性 已 由 关联 下 推 
(push-down join〉 更 名 为 自 适 应 查询 本 地 化 (adaptive query 


localization) 。) 








NDB 曾 经 相对 其 他 MySQL 存 储 引 擎 具有 完全 不 同 的 性 能 特性 ， 但 
最 近 的 版 本 更 加 通用 化 了 。 它 正在 成 为 越 来 越 多 应 用 的 更 好 的 解决 方 
案 ， 包 括 游 戏 和 移动 应 用 。 我 们 必须 强调 ，NDB 是 一 项 重要 的 技术 ， 能 
够 文 持 全 球 最 大 的 关键 应 用 ， 这 些 应 用 处 于 极 高 的 负载 下 ， 有 共有 非常 严 
苛 的 延迟 要 求 以 及 不 间断 要 求 。 举 个 例子 ， 世 界 上 任何 一 个 通过 移动 电 
话 网 络 呼叫 的 电话 使 用 的 就 是 NDB， 并 且 不 是 临时 方案 一 一 对 于 许多 移 
动 电话 提供 丙 而 言 ， 它 是 一 个 主要 的 并 且 非 常 重要 的 数据 库 。 





NDB 需 要 一 个 快速 且 可 靠 的 网 络 来 连接 市 皮 。 为 了 获得 最 好 的 性 
能 ， 最 好 使 用 特定 的 高 速 连接 设备 。 由 于 大 多 数 情况 下 需要 内 存 操作 ， 
因此 服务 器 间 需 要 大 量 的 内 存 。 














那么 它 有 什么 缺点 昵 ? 复杂 碍 询 现在 文 持 得 还 不 是 很 好 ， 例 如 那些 


有 很 多 关联 和 聚合 的 伍 询 。 所 以 不 要 指望 用 它 来 做 数据 仓库 。NDB 是 一 
个 事务 型 系统 ， 但 不 文 持 MVCC， 所 以 读 操作 也 需要 加 锁 ， 也 不 做 任何 
的 死 锁 检测 。 如 宋 发 生死 锁 ，NDB 就 以 超时 返回 的 方式 来 解决 。 还 有 很 
多 你 应 该 知道 的 要 后 和 和 警告， 可 以 专门 写 一 本 书 了 。 “有 一 些 关 于 
MySQL Cluster 的 书 ， 但 大 多 数 都 过 时 了 ， 最 好 的 办 法 是 阅读 手册 。 ) 








2. CTIustrix 


Clustrix (http://www.clustrix.com) 是 一 个 分 布 式 数据 库 ， 文 持 
MySQL 协 议 ， 所 以 它 可 以 直接 替代 MySQL。 除 了 协议 外 ， 它 是 一 个 全 
新 的 技术 ， 并 非 建立 在 MySQL 的 基础 之 上 。 它 是 一 个 完全 文 持 ACID， 
支持 MVCC 的 事务 型 SQL 数 据 库 ， 主 要 用 于 OLTP 负 载 场景 。Clustrix 在 
节点 间 进 行 数 据 分 片 以 满足 容错 性 ， 并 对 查询 进行 分 发 ， 在 节点 上 并 发 
执行 ， 而 不 是 将 所 有 节点 上 取得 的 数据 集中 起 来 执行 。 集 群 可 以 在 线 扩 
展 节 点 来 处 理 更 多 的 数据 或 负载 。 在 某 些 方面 Clustrix 和 MySQL Cluster 
很 像 ， 关 键 的 不 同 点 是 ，Clustrix 是 完全 分 布 式 执行 并 且 缺 少 顶 层 的 “ 代 
理 ” 或 者 集群 前 端的 查询 协调 器 (query coordinator) 。Clustrix 本 身 能 够 
理解 MySQL 协 议 ， 所 以 无 须 MySQL 来 进行 协议 转换 。 相 比较 而 言 ， 
MySQL cluster 是 由 三 个 部 分 组 成 的 :， MySQL，NDB 集 群 存储 引擎 ， 以 
及 NDB。 








我 们 的 实验 评估 和 性 能 测试 表明 ，Clustrix 能 够 提供 高 性 能 和 可 扩 
展 性 。Clustrix 看 起 来 是 一 项 比较 有 前 景 的 技术 ， 我 们 将 继续 观察 和 评 
fiT o 


3. ScaleBase 


ScaleBase (http://www.scalebase.com) 是 一 个 软件 代理 ， 处 于 应 用 
和 多 个 后 端 MySQL 服 务 器 之 间 。 它 会 把 发 起 的 查询 进行 分 裂 ， 并 将 其 
分 发 到 后 端 服务 器 并 发 执行 ， 然 后 汇集 结果 返回 给 应 用 。 不 过 在 写作 本 
书 时 ， 我 们 还 没有 使 用 该 产品 的 经 验 。 男 外 的 苋 争 产品 有 
ScaleArc (http:/www.calearc.com) 和 
dbShards (http:/www.dbshards.com) 。 


4. GenieDB 


GenieDB (http://www.geniedb.com) 最 开始 用 于 地 理 上 分 布 部 署 的 
NoSQL 文 档 存 储 。 现 在 它 也 有 一 个 SQL 层 ， 可 以 通过 MySQL 存 储 引 擎 
进行 控制 。 它 包含 了 很 多 技术 ， 包 括 本 地 内 存 缓存 、 消 恩 层 ， 以 及 持久 
化 磁盘 数据 存储 。 将 这 些 技术 汇集 在 一 起 ， 束 可 以 使 用 松散 的 最 终 一 致 
性 ， 让 应 用 在 本 地 快速 执行 查询 ， 或 是 通过 分 布 式 集 群 〈 会 增加 网 络 延 
TR) 来 保证 最 新 的 数据 视图 。 





通过 存储 引擎 实现 的 MySQL 兼 容 层 不 能 提供 100% 的 MySQL 特 性 ， 
但 对 于 支持 类 似 Joomla!、WordPress， 以 及 Drupal 这 样 的 应 用 已 经 够 用 
了 。MySQL 存 储 引 擎 的 用 处 主要 是 使 GenieDB 能 够 结合 存储 引擎 获得 对 
ACID 的 支持 ， 例 如 InnoDB。GenieDB 本 身 并 不 是 ACID 数据 库 。 








我 们 还 没 用 应 用 过 GenieDB， 也 没有 看 到 任何 生产 环境 部 署 。 


5. Akiban 





对 Akiban Chttp:/www.akiban.com) 最 好 的 描述 应 该 是 查询 加 速 


上 器。 它 通过 存储 物理 数据 来 丐 配 查 询 模 式 ， 使 得 低 开 销 的 跨 表 关联 操作 
成 为 可 能 。 尺 管 类 似 反 范式 化 (denormalization) ， 但 数据 层 并 不 是 宛 
余 的 ， 所 以 这 和 预先 计算 关联 并 存储 结果 的 方式 是 不 同 的 。 关 联 表 中 元 
组 是 互相 交错 的 ， 所 以 能 够 按照 天 联 顺序 进行 顺序 扫描 。 这 就 要 求 管 理 
员 确 定 查 询 模 式 能 够 从 所 谓 的 “ 表 组 ”(table grouping) 技术 中 受益 ， 并 
需要 为 查询 优化 设计 表 组 。 目 前 建议 的 系统 架构 是 将 Akiban 配 置 为 
MySQL 主 库 的 备 库 ， 并 用 它 来 为 可 能 较 慢 的 查询 提供 服务 。 加 速 系 数 
是 一 到 两 个 数量 级 。 但 是 我 们 还 没有 看 到 生产 环境 部 车 或 者 相关 的 实验 
Pei. 40) 


11.2.7 WAP E 


处 理 不 断 增 长 的 数据 和 负载 最 简单 的 办 法 是 对 不 再 需要 的 数据 进行 
归档 和 清理 。 这 种 操作 可 能 会 带 来 显 闭 的 成 效 ， 具 体 取决 于 工作 负载 和 
数据 特性 。 这 种 做 法 并 不 用 来 代 人 将 其 他 策略 ， 但 可 以 作为 争取 时 间 的 短 
期 朱 略 ， 也 可 以 作为 处 理 大 数据 量 的 长 期 计划 之 一 。 














在 设计 归档 和 清理 策略 时 需要 考虑 到 如 下 几 点 。 
对 应 用 的 影响 


一 个 设计 民 好 的 归档 系统 能 够 在 不 影响 事务 处 理 的 情况 下 ， 从 
一 个 高 负载 的 OLTP 服 务 器 上 移 除数 据 。 这 里 的 关键 是 能 高 效 地 找 
到 要 删除 的 行 ， 然 后 一 小 块 一 小 块 地 移 除 。 通 常 需要 平衡 一 次 归档 
的 行 数 和 事务 的 大 小 ， 以 找到 一 个 锁 葛 争 和 事务 负载 量 的 平衡 。 还 
需要 设计 归档 任务 在 必要 的 时 候 让 步 于 事务 处 理 。 





要 归档 的 行 


当知 道 茶 些 数据 不 再 使 用 后 ， 残 可 以 立刻 清理 或 归档 它们 。 也 
可 以 设计 应 用 去 归档 那些 几乎 不 怎么 使 用 的 数据 。 可 以 把 归档 的 数 
据 置 于 核心 表 附 近 ， 通 过 视图 来 访问 ， 或 完全 转移 到 别 的 服务 器 
Es 


维护 数据 一 致 性 


当 数 据 间 存在 联系 时 ， 会 导致 归档 和 清理 工作 更 加 复杂 。 一 个 
设计 展 好 的 归档 任务 能 够 保证 数据 的 逻辑 一 臻 性， 或 至 少 在 应 用 需 
要 时 能 够 保证 一 致 ， 而 无 须 在 大 量 事务 中 包含 多 个 表 。 








当 表 之 间 存 在 关系 时 ， 哪 个 表 首 先 归 档 是 个 问题 。 在 归档 时 需 
要 考虑 孤立 行 的 影响 。 可 以 选择 违背 外 键 约束 (可 以 通过 执行 SET 
FORE1GN_KEY_CHECKS=0 禁 止 InnoDB 的 外 键 约束 〉 或 暂时 把 “悬空 指 
针 ”(dangling pointer〉 记 录放 到 一 边 。 如 果 应 用 层 认 为 这 些 相关 联 
的 表 具 有 层次 关系 ， 那 么 归档 的 顺序 也 应 该 和 它 一 样 。 例 如 ， 如 果 
应 用 总 是 先 检查 订单 再 检查 发 贷 单 ， 就 先 归 档 订 单 。 应 用 应 该 看 不 
到 扳 立 的 发 货 单 ， 因 此 接 下 来 就 可 以 将 发 货 单 归 档 。 





避免 数据 丢失 


如 果 是 在 服务 器 间 归 档 ， 归 档期 间 可 能 束 无 法 做 分 布 式 事务 处 
理 ， 也 有 可 能 将 数据 归档 到 MyISAM 或 其 他 非 事 务 型 的 存储 引擎 
中 。 因 此 ， 为 了 避免 数据 丢失 ， 在 从 源 表 中 删除 时 ， 要 保证 已 经 在 
目标 机 器 上 保存 。 将 归档 数据 单独 写 到 一 个 文件 里 也 是 个 好 主意 。 
可 以 将 归档 任务 设计 为 能 够 随时 关闭 或 重启 ， 并 且 不 会 引起 不 一 致 





或 索引 冲突 之 类 的 错误 。 
解除 归档 (unarchiving) 


可 以 通过 一 些 解 除 归档 集 上 略 来 减少 归档 的 数据 量 。 它 可 以 帮助 
你 归档 那些 不 确定 是 人 否 需 要 的 数据 ， 并 在 以 后 可 以 通过 选项 进行 回 
退 。 如 果 可 以 设置 一 些 检查 点 让 系统 来 检查 是 否 有 需要 归档 的 数 
据 ， 那 么 这 应 该 是 一 个 很 容易 实现 的 策略 。 例 如 ， 要 对 不 活跃 的 用 
户 进行 归档 ， 检 碍 点 就 可 以 设置 在 登录 验证 时 。 如 果 因 为 用 户 不 存 
在 导致 登录 失败 ， 可 以 去 检查 归档 数据 中 是 否 存 在 该 用 户 ， 如 果 
有 ， 则 从 中 取出 来 并 完成 登录 。 


















































g J, Percona Toolkit 包 全 的 工具 pearchiver 能 够 帮助 你 有 效 地 归档 和 清理 MySQL 表 ， 但 不 


提供 解除 归档 功能 。 


保持 活跃 数据 独立 


即使 并 不 真 的 把 老 数 据 转移 到 别 的 服务 器 ， 许 多 应 用 也 能 受益 于 活 
跃 数据 和 非 活跃 数据 的 隔离 。 这 有 助 于 高 效 利 用 缓存 ， 并 为 活跃 和 不 活 
路 的 数据 使 用 不 同 的 硬件 或 应 用 架构 。 下 面 列举 了 几 种 做 法 : 


将 表 划 分 为 几 个 部 分 





分 表 是 一 种 比较 明智 的 办 法 ， 特 别 是 整 张 表 无 法 完全 加 载 到 内 
存 时 。 例 如 ， 可 以 把 users 表 划分 为 active_users 和 
inactive_users 表 。 你 可 能 认为 这 并 不 需要 ， 因 为 数据 库 本 号 只 组 
存 “ 热 ”数据 ， 但 事实 上 这 取决 于 存储 引擎 。 如 果 用 的 是 InnoDB， 











次 缓存 一 页 ， 而 一 页 能 存储 100 个 用 户 ， 但 只 有 10%% 是 活跃 的 ， 那 
么 这 时 候 InnoDB 可 能 认为 所 有 的 页 都 是 “ 热 ” 的 一 一 因此 每 个 “ 热 ” 页 
的 90% 将 被 浪费 挥 。 将 其 拆 成 两 个 表 可 以 明显 改善 内 存 利用 京 。 


MySQL 分 区 





MySQL 5.1 本 身 提 供 了 对 表 进 行 分 区 的 功能 ， 能 够 帮助 把 最 近 
的 数据 留 在 内 存 中 。 第 7 章 详细 介绍 了 分 区 表 。 


基于 时 间 的 数据 分 区 





如 宁 应 用 不 断 有 新 数据 进来 ， 一 般 新 数据 总 是 比 旧 数 据 更 加 活 
跃 。 例 如 ， 我 们 知道 博客 服务 的 流量 大 多 是 最 近 七 天 发 表 的 文章 和 
评论 。 更 新 的 大 部 分 是 相同 的 数据 集 。 因 此 这 些 数据 被 完整 地 保留 
在 内 存 中 ， 使 用 复制 来 保证 在 主 库 失效 时 有 一 份 可 用 的 备份 。 其 他 
数据 则 完全 可 以 放 到 别 的 地 方 去 。 


我 们 也 看 到 过 这 样 一 种 设计 ， 在 两 个 节操 的 分 片上 存储 用 户 数 
据 。 新 数据 总 是 进入 “活跃 ”节点 ， 该 节点 使 用 更 大 的 内 存 和 快速 硬 
盘 ， 另 外 一 个 点 存储 旧 数据 ， 使 用 非 营 大 《但 比较 慢 ) 的 硬盘 。 
应 用 假设 不 太 会 需要 旧 数 据 。 对 于 很 多 应 用 而 言 这 是 合理 的 假设 ， 
依靠 10% 的 最 新 数据 能 够 满足 90%% 或 更 多 的 请 求 。 








可 以 通过 动态 分 片 来 轻松 实现 这 种 策略 。 例 如 ， 分 片 目 录 表 可 能 定 
义 如 下 : 
CREATE TABLE users ( 


user_id int unsigned not null, 


shard_new int unsigned not null, 


shard_archive int unsigned not null, 
archive_timestamp timestamp, 
PRIMARY KEY (user_id) 

) ; 


通过 一 个 归档 脚本 将 旧 数 据 从 活跃 节点 转移 到 归档 节点 ， 当 移动 用 
户 数据 到 归档 节点 时 ， 更 新 archive_ timestamp 列 的 值 。shard_new 和 
shard_archive 列 记录 存储 数据 的 分 片 号 。 


11.3 ”人 负载 均衡 


负载 均衡 的 基本 思路 很 简单 : 在 一 个 服务 器 集群 中 尽 可 能 地 平均 负 
载 量 。 通 常 的 做 法 是 在 服务 器 前 端 设 置 一 个 负载 均衡 器 (一 般 是 专门 的 
人 硬件 设备 ) 。 然 后 负载 均衡 器 将 请 求 的 连接 路 由 到 最 空 闪 的 可 用 服务 
器 。 图 11-9 显 示 了 一 个 典型 的 大 型 网 站 负载 均衡 设置 ， 其 中 一 个 负载 均 
衡器 用 于 HTTP 流 量 ， 男 一 个 用 于 MySQL 访 问 。 

















图 11-9: 一 个 典型 的 读 密集 型 网 站 负载 均衡 架构 
负载 均衡 有 五 个 常见 目的 。 


可 扩展 性 


负载 均衡 对 某 些 扩展 朱 略 有 所 帮助 ， 例 如 读 写 分 离 时 从 备 库 读 
数据 。 


负载 均衡 有 助 于 更 有 效 地 使 用 资源 ， 因 为 它 能 够 控制 请 求 被 路 
由 到 何 处 。 如 果 服 务 器 处 理 能 力 各 不 相同 ， 这 惑 尤 为 重要 : 你 可 以 
把 更 多 的 工作 分 配给 性 能 更 好 的 机 器 。 


司 用 和 性 
一 个 灵活 的 负载 均衡 解决 方案 能 够 使 用 时 刻 保持 可 用 的 服务 

HÑ o 

透明 性 





客户 端 无 须知 道 是 否 存在 负载 均衡 设置 ， 也 不 需要 关心 在 负载 
均衡 器 的 背后 有 多 少 机 器 ， 它 们 的 名 字 是 什么 。 负 载 均衡 器 给 客户 
端 看 到 的 只 是 一 个 虚拟 的 服务 器 。 


一 致 性 





如 琳 应 用 是 有 状态 的 (数据 库 事 务 ， 网 站 会 话 等 ; ， 那 么 负载 
均衡 嚣 束 应 将 相关 的 查询 指 回 同一 个 服务 器 ， 以 防止 状态 丢失 。 应 
用 无 须 去 跟踪 到 底 连 接 的 是 哪个 服务 屁 。 





在 与 MySQL 相 关 的 领域 里 ， 负 和 载 均衡 淋 构 通 肖 和 数据 分 片 及 复制 
紧密 相关 。 你 可 以 把 负载 均衡 和 高 可 用 性 结合 在 一 起 ， 部 署 到 应 用 的 任 
一 层次 上 。 例 如 ， 可 以 在 MySQL ”Cluster 集群 的 多 个 SQL 节点 上 做 负载 


均衡 ， 也 可 以 在 多 个 数据 中 心间 做 负载 均衡 ， 其 中 每 个 数据 中 心 又 可 以 
使 用 数据 分 片 架 构 ， 每 个 节点 实际 上 是 拥有 多 个 备 库 的 主 一 主 复制 对 结 
构 ， 这 里 又 可 以 做 负载 均衡 。 对 于 高 可 用 性 策略 也 同样 如 此 : 在 一 个 架 
构 里 可 以 配置 多 层 的 故障 转移 机 制 。 





负载 均衡 有 许多 微妙 之 处 ， 举 个 例子 ， 其 中 一 个 挑战 就 是 管理 读 / 
写 策 略 。 有 些 负载 均衡 技术 本 身 能 够 实现 这 一 点 ， 但 其 他 的 则 需要 应 用 
目 己 知道 哪些 节点 是 可 读 的 或 可 写 的 。 











在 决定 如 何 实现 负载 均衡 时 ， 应 该 考虑 到 这 些 因 素 。 有 许多 负载 均 
衡 解 决 方案 可 以 使 用 ， 从 诸如 
Wackamole (http://www.backhand.org/wackamole/) 这 样 基于 端点 的 
(peer-based) 实现 ， 到 DNS、LVS (Linux Virtual 
Server, http://www.linuxvirtualserver.org) 、 和 硬件 负 载 均 衡器 、TCP 代 
FH. MySQL Proxy， 以 及 在 应 用 中 管理 负载 均衡 。 


在 我 们 的 客户 中 ， 最 普 衣 的 策略 是 使 用 硬件 负载 均衡 器 ， 大 多 是 使 
用 HAProxy (http:/haproxy.1wt.eu) ， 它 看 起 来 很 流行 并 且 工 作 得 很 
好 。 还 有 一 些 人 使 用 TCP 代 理 ， 例 如 Pen Chttp://siag.nu/pen/) 。 但 
MySQL Proxy 用 得 并 不 多 。 


11.3.1 直接 连接 


有 些 人 认为 负载 均衡 就 是 配置 在 应 用 和 MySQL 服 务 器 之 间 的 东 
西 。 但 这 并 不 是 唯一 的 负载 均衡 方法 。 你 可 以 在 保持 应 用 和 MySQL 连 
接 的 情况 下 使 用 负载 均衡 。 事 实 上 ， 集 中 化 的 负载 均衡 系统 只 有 在 存在 
一 个 对 等 置换 的 服务 器 池 时 才能 很 好 工作 。 如 果 应 用 需要 做 一 些 决 集 





例如 在 备 库 上 执行 读 操 作 是 否 安全 ， 就 需要 直接 连接 到 服务 器 。 


除了 可 能 出 现 的 一 些 特 定 多 辑 ， 应 用 为 负载 均衡 做 决策 是 非常 高 交 
的 。 例 如 ， 如 果 有 两 个 完全 相同 的 备 库 ， 你 可 以 使 用 其 中 的 一 个 来 处 理 
特定 分 片 的 数据 僵 询 ， 男 一 个 处 理 其 他 的 查询 。 这 样 能 够 有 效 利用 备 库 
的 内 存 ， 因 为 每 个 备 库 只 会 缓存 一 部 分 数据 。 如 果 其 中 一 个 备 库 失效 ， 
另外 一 个 备 库 拥 有 所 有 的 数据 ， 仍 然 能 提供 服务 。 





接 下 来 的 小 节 将 讨论 一 些 应 用 直 连 的 常见 方法 ， 以 及 在 评估 每 一 个 
选项 时 的 注意 扩 。 


1. 复制 上 的 读 / 写 分 离 





MySQL 复 制 产 生 了 多 个 数据 副本 ， 你 可 以 选择 在 备 库 还 是 主 库 上 
执行 查询 。 由 于 备 库 复制 是 异步 的 ， 因 此 主要 的 难点 是 如 何 处 理 备 库 上 
的 脏 数据 。 应 该 将 备 库 用 作 只 读 的 ， 而 主 库 可 以 同时 处 理 读 和 写 查 询 。 














通常 需要 修改 应 用 以 适应 这 种 分 离 需求 。 然 后 应 用 就 可 以 使 用 主 库 
来 进行 写 操 作 ， 并 将 读 操 作 分 配 到 主 库 和 备 库 上 ; 如 果 不 太 关心 数据 是 
个 是 脏 的 ， 可 以 使 用 备 库 ， 而 对 需要 即时 数据 的 请 求 使 用 主 库 。 我 们 将 
这 称 为 读 / 写 分 离 。 








如 果 使 用 的 是 主动 一 说 动 模式 的 主 一 主 复制 对 ， 同 样 也 要 考虑 这 个 
问题 。 使 用 这 种 配置 时 ， 只 有 主动 服务 器 接受 与 操作 。 如 采 能 够 接受 读 
到 脏 数 据 ， 可 以 将 读 分 配给 被 动 服务 絮 。 


最 大 的 问题 是 如 何 避 免 由 于 读 了 脏 数 据 引起 的 奇怪 问题 。 一 个 典型 
的 例子 是 当 一 个 用 户 做 了 某 些 修改 ， 例 如 增加 了 一 条 博客 文章 的 评论 ， 


然后 重新 加 载 页 面 ， 但 并 没有 看 到 更 新 ， 因 为 应 用 从 备 库 读 取 到 了 及 的 
数据 。 


比较 常见 的 读 / 写 分 离 方 法 如 下 : 
基于 查询 分 离 


最 简单 的 分 离 方法 是 将 所 有 不 能 容 妨 脏 数据 的 读 和 写 合 询 分 配 
到 主动 或 主 库 服务 器 上 。 其 他 的 读 查 询 分 配 到 备 库 或 被 动 服 务 絮 
上 。 该 策略 很 容易 实现 ， 但 事实 上 无 法 有 效 地 使 用 备 库 ， 因 为 只 有 
很 少 的 查询 能 容 妨 脏 数 据 。 








基于 脏 数 据 分 离 








这 是 对 基于 查询 分 离 方法 的 小 改进 。 需 要 做 一 些 额 外 的 工作 ， 
让 应 用 检查 复制 延迟 ， 以 确定 备 库 数据 是 否 太 旧 。 许 多 报表 类 应 用 
都 使 用 这 个 策略 : 只 需要 晚上 加 载 的 数据 复制 到 备 库 即 可 ， 它 们 并 
不 关心 是 不 是 100% 跟 上 了 主 库 。 


基于 会 话 分 离 


男 一 个 决定 能 侍从 备 库 读数 据 的 稍微 复杂 一 点 的 方法 是 判读 用 
户 目 己 是 人 否 修改 了 数据 。 用 户 不 需要 看 到 其 他 用 户 的 最 新 数据 ， 但 
需要 看 到 自己 的 更 新 。 可 以 在 会 话 层 设置 一 个 标记 位 ， 表 明 做 了 更 
新 ， 就 将 该 用 户 的 得 询 在 一 段 时 间 内 总 是 指 问 主 库 。 这 是 我 们 通 御 
推荐 的 策略 ， 因 为 它 是 在 简单 和 有 效 性 之 间 的 一 种 很 好 的 妥协 。 














如 果 有 足够 的 想象 力 ， 可 以 把 基于 会 话 的 分 离 方法 和 复制 延迟 
监控 结合 起 来 。 如 采用 户 在 10 秒 前 更 新 了 数据 ， 而 所 有 备 库 延迟 在 





5 秒 内 ， 就 可 以 安全 地 从 备 库 中 读 取 数据 。 但 为 整个 会 话 选 择 同一 
个 备 库 是 一 个 很 好 的 主意 ， 人 否则 用 户 可 能 会 奇怪 有 些 备 库 的 更 新 速 
度 比 其 他 服务 器 要 慢 。 


基于 版 本 分 离 


这 和 基于 会 话 的 分 离 方 法 相似 :你 可 以 跟踪 对 象 的 版 本 号 以 
及 /或 者 时 间 惟 ， 通 过 从 备 库 读 取 对 象 的 版 本 或 时 间 恰 来 判断 数据 
和 是否 足 够 新 。 如 果 备 库 的 数据 太 旧 ， 可 以 从 主 库 获 取 最 新 的 数据 。 
即使 对 象 本 里 没有 变化 ， 但 如 果 是 项 层 对 象 ， 只 要 下 和 面 的 任何 对 象 
有 变化 ， 也 可 以 增加 版 本 写 ， 这 简化 了 脏 数 据 检 查 ( 只 需要 检 醋 顶 
层 对 象 一 处 就 能 判断 是 否 有 更 新 ) 。 例 如 ， 在 用 户 发 表 了 一 篇 新 文 
章 后 ， 可 以 更 新 用 户 的 版 本 。 这 样 就 会 从 主 库 去 读 取 数据 了 。 





基于 全 局 版 本 /会 话 分 离 





这 个 办 法 是 基于 版 本 分 离 和 基于 会 话 分 离 的 变种 。 当 应 用 执行 
写 操作 时 ， 在 提交 事务 后 ， 执 行 一 次 SHOW MASTER STATUS 操作 。 然 
后 在 缓存 中 存储 主 库 日 志 坐 标 ， 作 为 被 修改 对 象 以 及 /或 者 会 话 的 
版 本 号 。 当 应 用 连接 到 备 库 时 ， 执 行 SHOW SLAVE STATUS 并 将 备 库 
上 的 坐标 和 缓存 中 的 版 本 号 相对 比 。 如 果 备 库 相 比 记 录 点 更 新 ， 就 
可 以 安全 地 读 取 备 库 数 据 。 





大 多 数 读 / 写 分 离 解决 方案 都 需要 监控 复制 延迟 来 决策 读 碍 询 的 分 
配 ， 不 管 是 通过 复制 或 负载 均衡 器 ， 或 是 一 个 中 间 系 统 。 如 果 这 么 做 ， 
再 要 注意 通过 SHOW SLAVE STATUS 得 到 的 Seconds_behind_master 列 的 值 
并 不 能 准确 地 用 于 监控 延迟 。《〈 详 情 参 阅 第 10 瘟 ) 。Percona Toolkit 
的 pt-heartbeat 工 具 能 够 帮助 监控 延迟 ， 并 维护 元 数据 ， 例 如 二 进 制 日 志 
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如 果 不 在 乎 用 昂贵 的 硬件 来 承载 压力 ， 也 就 可 以 不 使 用 复制 来 扩展 
读 操作 ， 这 样 当 然 更 简单 。 这 可 以 避免 在 主 备 上 分 离 读 的 复杂 性 。 有 些 
人 认为 这 很 有 意义 ， 也 有 人 认为 会 浪费 硬件 。 这 种 分 歧 是 由 于 不 同 的 目 
的 引起 的 ， 你 是 只 需要 可 扩展 性 ， 还 是 要 同时 具有 可 扩展 性 和 高 利用 
率 ? 如 果 需 要 高 利用 率 ， 那 么 备 库 除了 保存 数据 副本 外 还 需要 承担 其 他 
任务 ， 就 不 得 不 处 理 这 些 额 外 的 复杂 度 。 




















2. 修改 应 用 的 配置 





还 有 一 个 分 发 负载 的 方法 是 重新 配置 应 用 。 例 如 ， 你 可 以 配置 多 个 
机 器 来 分 担 生 成 大 报表 操作 的 负载 。 每 台 机 器 可 以 配置 成 连接 到 不 同 的 
MySQL 备 库 ， 并 为 第 N 个 用 户 或 网 站 生成 报表 。 





这 样 的 系统 很 容易 实现 ， 但 如 果 需 要 修改 一 些 代码 一 一 包括 配置 文 
件 修改 一 一 会 变 得 脆弱 且 难 以 处 理 。 硬 编码 有 着 固有 的 限制 ， 需 要 在 每 
台 服 务 器 上 修改 硬 编 码 ， 或 者 在 一 个 中 心服 务 器 上 修改 ， 然 后 通过 文件 
副本 或 代码 控制 更 新 命令 “发 布 ? 到 其 他 服务 右上。 如 果 将 配置 存储 在 服 
务 吉 或 缓存 中 ， 就 可 以 避免 这 些 麻 烦 。 














3. 修改 DNS 名 


这 是 一 个 比较 粗粮 的 负载 均衡 拉 术 ， 但 对 于 一 些 简单 的 应 用 ， 为 不 
同 的 目的 创建 DNS 还 是 很 实用 的 。 你 可 以 为 不 同 的 服务 器 指定 一 个 合适 
的 名 字 。 基 简单 的 方法 是 只 读 服 务 器 拥有 一 个 DNS 名 ， 而 给 负责 写 操 作 





的 服务 器 起 另外 一 个 DNS 名 。 如 有 果 备 库 能 够 跟 上 主 库 ， 那 就 把 只 读 DNS 


名 指 


定 给 备 库 ， 当 出 现 延 迟 时 ， 再 将 该 DNS 名 指定 给 主 库 。 











这 种 DNS 技术 非常 容易 实现 ， 但 也 有 很 多 缺点 。 最 大 的 问题 是 无 法 


完全 控制 DNS。 


修改 DNS 并 不 是 立刻 生效 的 ， 也 不 是 原子 的 。 将 DNS 的 变化 传递 到 
整个 网 络 或 在 网 络 间 传播 都 需要 比较 长 的 时 间 。 

DNS 数据 会 在 各 个 地 方 缓存 下 来 ， 它 的 过 期 时 间 是 建议 性 质 的 ， 而 
非 强 制 的 。 

可 能 需要 应 用 或 服务 器 重启 才能 使 修改 后 的 DNS 完全 生效 。 

多 个 IP 地 址 共用 一 个 DNS 名 并 依赖 于 轮 询 行 为 来 均衡 请 求 ， 这 并 不 
是 一 个 好 主意 。 因 为 轮 询 行为 并 不 总 是 可 预知 的 。 

DBA 可 能 没有 权限 直接 访问 DNS。 














除非 应 用 非常 简单 ， 否 则 依赖 于 不 受 控 制 的 系统 会 非 第 危险 。 你 可 


以 通过 修改 /etchosts 文 件 而 非 DNS 来 改善 对 系统 的 控制 。 当 发 布 一 个 对 
该 文件 的 更 新 时 ， 会 知道 该 变更 已 经 生效 。 这 比 等 待 缓存 的 DNS 失效 要 
好 得 多 。 但 这 仍然 不 是 理想 的 办 法 。 


我 们 通常 建议 人 们 构建 一 个 完全 不 依赖 DNS 的 应 用 。 即 使 应 用 很 简 


单 也 适用 ， 因 为 你 无 法 预知 应 用 会 增长 到 多 大 规模 。 


4. 


转移 IP 地 址 


一 些 负载 均衡 解决 方案 依赖 于 在 服务 器 间 转 移 虚拟 地 址 吕 ， 一 般 


能 够 很 好 地 工作 。 这 听 起 来 和 修改 DNS 很 像 ， 但 完全 是 两 码 事 。 服 务 器 
不 会 根据 DNS 名 去 监听 网 络 流量 ， 而 是 根据 指定 的 IP 地 址 去 监听 流量 ， 








所 以 转移 IP 地 址 允许 DNS 名 保持 不 变 。 你 可 以 通过 ARP (地址 解析 协 
W) 命令 强制 使 IP 地 址 的 更 改 快速 而 且 原 子 性 地 通知 到 网 络 上 。 


我 们 看 过 的 使 用 最 普遍 的 技术 是 Pacemaker， 这 是 Linux-HA 项 目的 
Heartbeat 工 具 的 继承 者 。 你 可 以 使 用 单个 IP 地 址 ， 为 其 分 配 一 个 角色 ， 
例如 read-only， 当 需要 在 机 器 间 转 移 IP 地 址 时 ， 它 能 够 感知 到 。 其 他 类 
似 的 工具 包括 LVS 和 Wackamole。 


一 个 比较 方便 的 技术 是 为 每 个 物理 服务 器 分 配 一 个 固定 的 IP 地 址 。 
该 了 了 地 址 固定 在 服务 器 上 ， 不 再 改变 。 然 后 可 以 为 每 个 多 辑 上 的 “ 服 
务 ” 使 用 一 个 虚拟 耳 地址 。 它 们 能 够 很 方便 地 在 服务 器 间 转 移 ， 这 使 得 
转移 服务 和 应 用 实例 无 须 再 重新 配置 应 用 ， 因 此 更 加 容易 。 即 使 不 怎么 
经 第 转移 JP 地址 ， 这 也 是 一 个 很 好 的 特性 。 


11.3.2 引入 中 间 件 


迄今 为 止 ， 我 们 所 讨论 的 方案 都 假定 应 用 跟 MySQL 服 务 器 是 直接 
相连 的 。 但 是 许多 负载 均衡 解决 方案 都 会 引入 一 个 中 间 件 ， 作 为 网 络 通 
信 的 代理 。 它 一 边 接受 所 有 的 通信 请 求 ， 另 一 边 将 这 些 请 求 派发 到 指定 
的 服务 器 上 ， 然 后 把 执行 结果 发 送 回 请 求 的 机 器 上 。 中 间 件 可 以 是 硬件 
设备 或 是 软件 2。 图 11-10 描 述 了 这 种 架构 。 这 种 解决 方案 通常 能 工作 
得 很 好 ， 妆 然 除非 为 负载 均衡 器 本 映 增加 见 余 ， 这 样 才能 避免 单 点 故障 
引起 的 整个 系统 瘫痪 。 从 开源 软件 ， 如 HAProxy， 到 许多 广为人知 的 丙 
业 系 统 ， 有 许多 负载 均衡 器 得 到 了 成 功 的 应 用 。 
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图 11-10: 作为 中 间 件 的 负载 均衡 器 


1. HM as 


在 市 场 上 有 许多 负载 均衡 硬件 和 软件 ， 但 很 少 有 专门 为 MySQL 服 
务 器 设计 的 G。Web 服 务 器 通常 更 需要 负载 均衡 ， 因 此 许多 多 用 途 的 负 
载 均衡 设备 都 会 文 持 HITP， 而 对 其 他 用 途 则 只 有 一 些 很 少 的 基本 特 
性 。MySQL 连 接 都 只 是 正常 的 TCP/IP 连 接 ， 所 以 可 以 在 MySQL 上 使 用 
多 用 途 负载 均衡 器 。 但 由 于 缺少 MySQL 专 有 的 特性 ， 因 此 会 多 一 些 限 
制 | 。 


。 除非 负载 均衡 器 知道 MySQL 的 真实 负载 ， 否 则 在 分 发 请 求 时 可 能 

无 法 做 到 很 好 的 负载 均衡 。 不 是 所 有 的 请 求 都 是 等 同 的 ， 但 多 用 途 
负载 均衡 器 通常 对 所 有 的 请 求 一 视 同仁 。 

许多 负载 均衡 器 知道 如 何 检查 一 个 HTTP 请 求 并 把 会 话 “ 固 定 ” 到 一 

个 服务 器 上 以 保护 在 Web 服 务 器 上 的 会 话 状 态 。MySQL 连 接 也 是 有 
状态 的 ， 但 负载 均衡 器 可 能 并 不 知道 如 何 把 所 有 从 单个 HTTP 会 话 

发 送 的 连接 请 求 “ 固 定 ? 到 一 个 MySQL 服 务 器 上 。 这 会 损失 一 部 分 效 
Ke (如果 单个 会 话 的 请 求 都 是 发 到 同一 个 MySQL 服 务 器 ， 服 务 

器 的 缓存 会 更 有 效率 。) 

连接 池 和 长 连接 可 能 会 阻碍 负载 均衡 器 分 发 连接 请 求 。 例 如 ， 假 如 
一 个 连接 池 打 开 了 预先 配置 好 的 连接 数 ， 负 载 均衡 器 在 已 有 的 四 个 
MySQL 服 务 器 上 分 发 这 些 连 接 。 现 在 增加 了 两 个 以 上 的 MySQL 服 





务 嚣 。 由 于 连接 池 不 会 请 求 新 连接 ， 因 而 新 的 服务 器 会 一 直 空 闪 

着 。 池 中 的 连接 会 在 服务 器 间 不 公平 地 分 配 负 载 ， 导 致 一 些 服务 器 
超出 负载 ， 一 些 则 几乎 没有 负载 。 可 以 在 多 个 层面 为 连接 设置 失效 
时 间 来 缓解 这 个 问题 ， 但 这 很 复杂 并 且 很 难 做 到 。 连 接 池 方案 只 有 
它们 本 身 能 够 处 理 负载 均衡 时 才能 工作 得 很 好 。 

许多 多 用 途 负载 均衡 器 只 会 针对 HITP 服 务 器 做 健康 和 负载 检查 。 

一 个 简单 的 负载 均衡 器 最 少 能 够 核实 服务 器 在 一 个 TCP 端 口上 接受 
的 连接 数 。 更 好 的 负载 均衡 器 能 够 自动 发 起 一 个 HTTP 请 求 ， 并 检 
但 返回 值 以 确定 这 个 Web 服 务 嚣 是否 正 党 运转 。MySQL 并 不 接受 到 
3306 端 口 的 HTTP 请 求 ， 因 此 需要 自己 来 构建 健康 检查 方法 。 你 可 
以 在 MySQL 服 务 器 上 安装 一 个 HTTP 服 务 器 软件 ， 并 将 负载 均衡 器 
指 癌 一 个 脚本 ， 这 个 脚本 检查 MySQL 服 务 器 的 状态 并 返回 一 个 对 

应 的 状态 值 (9。 最 重要 的 是 检查 操作 系统 负载 (通过 查 

看 /proc/loadavg) 、 复 制 状态 ， 以 及 MySQL 的 连接 数 。 























负载 均衡 算法 





有 许多 算法 用 来 决定 哪个 服务 器 接受 下 一 个 连接 。 每 个 广 商 都 有 各 


目 不 同 的 算法 ， 下 面 这 个 清单 列 出 了 一 些 可 用 的 方法 : 


随机 


负载 均衡 器 随机 地 从 可 用 的 服务 器 池 中 选择 一 个 服务 器 来 处 理 


SEX LY aS EIA Ue BOS HK EUR as, PO: A, B, C, 
A, B, Co 
最 少 连接 数 
下 一 个 连接 请 求 分 配给 拥有 最 少 活 路 连接 的 服务 器 。 
最 快 响应 


能 够 最 快 处 理 请 求 的 服务 器 接受 下 一 个 连接 。 当 服务 器 池 里 同 
时 存在 快速 和 慢 速 服务 器 时 ， 这 很 有 效 。 即 使 同样 的 查询 在 不 同 的 
场景 下 运行 也 会 有 不 同 的 表现 ， 例 如 当 碍 询 结果 已 经 缓存 在 查询 组 
存 中 ， 或 者 服务 器 缓存 中 已 经 包含 了 所 需要 的 数据 时 。 


哈 希 


负载 均衡 器 通过 连接 的 源 耻 地 址 进行 哈 希 ， 将 其 映射 到 池 中 的 
同一 个 服务 器 上 。 每 次 从 同一 个 耳 地 址 发 起 请 求 ， 负 载 均衡 器 都 会 
将 请 求 发 送 给 同样 的 服务 器 。 只 有 当 池 中 服务 器 数目 改变 时 这 种 绑 
EA ERES 


权重 


负载 均衡 器 能 够 结合 使 用 上 述 几 种 算法 。 例 如 ， 你 可 能 拥有 单 
CPU 和 双 CPU 的 机 器 。 双 CPU 机 器 有 接近 两 倍 的 性 能 ， 所 以 可 以 让 
负载 均衡 器 分 派 两 倍 的 请 求 给 双 CPU 机 器 。 


哪 种 算法 最 优 取决 于 具体 的 工作 负载 。 例 如 最 少 连接 算法 ， 如 打 有 
新 机 器 加 入 ， 可 能 会 有 大 量 连接 涌 入 该 服务 器 ， 而 这 时 候 它 的 缓存 还 没 


有 包含 热 数据 。 本 书 第 一 版 的 作者 曾经 杀身 体验 了 这 种 情况 。 


你 需要 通过 测试 来 为 你 的 工作 负载 找到 最 好 的 性 能 。 除 了 正常 的 日 
常 运转 ， 还 需要 考虑 极端 情况 。 在 比较 极端 的 情况 下 一 一 例如 负载 升 
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至 少 要 避免 系统 出 现 重 大 错 





我 们 这 里 只 描述 了 即时 处 理 请 求 的 算法 ， 无 须 对 连接 请 求 排队 。 但 
有 时 候 使 用 排队 算法 可 能 更 有 效 。 例 如 ， 一 个 算法 可 能 只 维护 给 定 的 数 
据 库 服务 器 并 及 数 目 ， 同 一 时 刻 只 允许 不 超过 N 个 活跃 事务 。 如 果 有 太 
多 的 活路 事务， 就 将 新 的 请 求 放 到 一 个 队列 里 ， 然 后 让 可 用 服务 占 列 表 
的 第 一 个 来 处 理 它 。 有 些 连 接 池 也 支持 队列 算法 。 


3. 在 服务 融 池 中 增加 / 移 除 服务 需 


增加 一 个 服务 器 到 池 中 并 不 是 简单 地 插入 进去 ， 然 后 通知 负载 均衡 
器 就 可 以 了 。 你 可 能 以 为 只 要 不 是 一 下 子 消 进 大 量 连 接 请 求 就 可 以 了 ， 
但 并 不 一 定 如 此 。 有 时 候 你 会 缓慢 增加 一 台 服 务 器 的 负载 ， 但 一 些 缓存 
还 是 “ 冷 * 的 服务 器 可 能 会 慢 到 在 一 段 时 间 内 都 无 法 处 理 任何 的 用 户 请 
求 。 如 果 用 户 浏 览 一 个 页 面 需 要 30 秒 才能 返回 数据 ， 即 使 流量 很 小 ， 这 
个 服务 器 也 是 不 可 用 的 。 有 一 个 方法 可 以 避免 这 个 问题 ， 在 通知 负载 均 
衡器 有 新 服务 器 加 入 前 ， 可 以 暂时 把 SELECT 查询 映射 到 一 台 活 跃 服务 
器 上 。 然 后 在 新 开局 的 服务 器 上 读 取 和 重 放 活跃 服务 器 上 的 日 志文 件 ， 
或 者 捕捉 生产 服务 器 上 的 网 络 通 信 ， 并 重 放 它 的 一 部 分 查询 。Percona 
Toolkit 中 的 ptquery-digest 工 具 能 够 有 所 帮助 。 另 一 个 有 效 的 办 法 是 使 用 
Percona Server 或 MySQL 5.6 的 快速 预 热 特 性 。 





在 配置 连接 池 中 的 服务 器 时 ， 要 保证 有 足够 多 未 使 用 的 容量 ， 以 备 
在 撤 下 服务 器 做 维护 时 使 用 ， 或 者 当 服 务 器 失效 时 可 以 派 上 用 场 。 每 合 
服务 器 上 都 应 该 保留 高 于 “足够 ”的 容量 。 


要 确保 配置 的 限制 值 足 够 高 ， 即 使 从 池 中 撤 出 一 些 服 务 器 也 能 够 工 
作 。 举 个 例子 ， 如 果 你 发 现 每 个 MySQL 服 务 器 一 般 有 100 个 连接 ， 应 该 
设置 池 中 每 个 服务 器 的 max_connections 值 为 200。 这 样 就 算 一 半 的 服务 
器 失效 ， 服 务 器 池 整 体 也 能 处 理 同样 数量 的 请 求 。 


11.3.3 ”一 主 多 备 间 的 负载 均衡 


最 常见 的 复制 拓扑 结构 就 是 一 个 主 库 加 多 个 备 亩 。 我 们 很 难 绕 开 这 
个 架构 。 许 多 应 用 都 假设 只 有 一 个 目标 机 器 用 于 所 有 的 写 操作 ， 或 者 所 
有 的 数据 都 可 以 从 单个 服务 器 上 获得 。 尺 管 这 个 架构 不 太 具 有 很 好 的 可 
扩展 性 ， 但 可 以 通过 一 些 办 法 结合 负载 均衡 来 获得 很 好 的 效果 。 本 小 市 
将 讲述 其 中 的 一 些 技术 。 














功能 分 区 


正如 之 前 讨论 的 ， 对 于 特定 的 目的 可 以 通过 配置 备 库 或 一 组 备 
库 来 极 大 地 扩展 容量 。 一 些 比 较 常 见 的 功能 包括 报表 、 分 析 、 数 据 
仓库 ， 以 及 全 文 检 索 。 在 第 10 音 有 更 多 的 细节 。 


过 滤 和 数据 分 区 


可 以 使 用 复制 过 滤 技 术 在 相似 的 备 库 上 对 数据 进行 分 区 《参考 
第 10 章 ) 。 只 要 数据 在 主 库 上 已 经 被 隔离 到 不 同 的 数据 库 或 表 中 ， 
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复制 过 滤 。 你 需要 使 用 一 些 独创 性 的 技术 来 实现 这 一 点 ， 例 如 使 用 
触发 器 和 一 组 不 同 的 表 。 


即使 不 把 数据 分 区 到 各 个 备 库 上 ， 也 可 以 通过 对 读 进行 分 区 而 
不 是 随机 分 配 来 提高 缓存 效率 。 例 如 ， 可 以 把 对 以 字母 A 一 M 开 头 
的 用 户 名 的 读 操 作 分 配给 一 个 给 定 的 备 库 ， 把 以 N 一 2 开头 的 分 配 
给 夯 外 一 个 。 这 能 够 更 好 地 利用 每 合 机 器 的 缓存 ， 因 为 分 离 读 更 可 
能 在 缓存 中 找到 相关 的 数据 。 最 好 的 情况 下 ， 当 没有 写 操作 时 ， 这 
样 使 用 的 缓存 相当 于 两 台 服 务 占 缓存 的 总 和 。 相 比 之 下 ， 如 果 随 机 
地 在 备 库 上 分 配 读 操 作 ， 每 个 机 器 的 缓存 本 质 上 还 是 重复 的 数据 ， 
而 总 的 有 效 缓存 效率 和 一 个 备 库 缓 存 一 样 ， 不 管 你 有 多 少 台 备 库 。 








将 部 分 写 操作 转移 到 备 库 


主 库 并 不 总 是 需要 处 理 写 操作 中 的 所 有 工作 。 你 可 以 分 解 写 奉 
询 ， 并 在 备 库 上 执行 其 中 的 一 部 分 ， 从 而 显著 减少 主 库 的 工作 量 。 
更 多 内 容 参见 第 10 章 。 








保证 备 库 跟 上 主 库 





如 果 要 在 备 库 执行 某 种 操作 ， 它 需要 即时 知道 数据 处 于 哪个 时 
间 点 一 一 哪怕 需要 等 待 一 会 儿 才 能 到 达 这 个 点 一 一 可 以 使 用 函数 
MASTER_POS_WAITO 阻 塞 直 到 备 库 赶 上 了 设置 的 主 库 同步 点 。 田 
一 种 蔡 代 方案 是 使 用 复制 心跳 来 检查 延迟 情况 ;更 多 内 容 参 见 第 10 











也 可 以 使 用 MASTER_POS_WAIT () 函数 来 确保 写 操作 已 经 被 同步 
到 一 个 或 多 个 备 库 上 。 如 果 应 用 需要 模拟 同步 复制 来 保证 数据 安全 
性 ， 就 可 以 在 多 个 备 库 上 轮流 执行 MASTER_POS_WAIT () RZ. 
类 似 创建 了 一 个 “同步 屏障 ”， 当 任意 一 个 备 库 出 现 复 制 延 迟 时 ， 都 
可 能 花费 很 长 时 间 完 成 ， 所 以 最 好 在 确实 需要 的 时 候 才 使 用 这 种 方 
法 。“《〈 如 果 你 的 目的 只 是 确保 某 些 备 库 拥有 事件 ， 可 以 只 等 待 一 台 
备 库 接 收 到 事件 。MySQL 5.5 增 加 了 半 同 步 复制 ， 能 够 支持 这 项 技 
We 2 

















11.4 总结 





正确 地 扩展 MySQL 并 没有 看 起 来 那么 美好 。 从 第 一 天 束 建 并 下 一 
个 Facebook 架 构 ， 这 并 不 是 正确 的 方式 。 最 好 的 策略 是 实现 应 用 所 明确 
需要 的 ， 并 为 可 能 的 快速 增长 做 好 预先 规划 ， 成 功 的 规划 是 可 以 为 任何 
必要 的 措施 筹集 资金 以 满足 需求 。 














为 可 扩展 性 制定 一 个 数学 意义 上 的 定义 是 很 有 意义 的 ， 就 像 为 性 能 
制定 了 一 个 精确 概念 一 样 。USL 能 够 提供 一 个 有 帮助 的 框架 。 如 果 知 道 
系统 无 法 做 到 线性 扩展 是 因为 诸如 序列 化 或 交互 操作 的 开销 ， 将 可 以 帮 
助 你 避免 将 这 些 问 题 带 入 到 应 用 中 。 同 时 ， 许 多 可 扩展 性 问题 并 不 是 可 
以 从 数学 上 定义 的 ; 可 能 是 由 于 组 织 内 部 的 问题 ， 例 如 缺少 团队 协作 或 
其 他 不 适当 的 问题 。Neil J. Gunther 博士 所 写 的 Guerrilla Capacity 
Planning 以 及 Fliyahu M. Goldratt 写 的 The Goal 可 以 帮助 有 兴趣 的 读者 了 
解 为 什么 系统 无 法 扩展 。 











在 MySQL 扩 展 策 略 方面 ， 典 型 的 应 用 在 增长 到 非常 庞大 时 ， 通 党 
先 从 单个 服务 器 转移 到 同 外 扩展 的 拥有 读 备 库 的 架构 ， 再 到 数据 分 厂 
和 /或 者 按 功 能 分 区 。 我 们 并 不 同意 那些 提倡 为 每 个 应 用 “尽早 分 片 ， 尽 
量 分 片 ”(shard early, shard often) WJM. (REA AR Mot, FFA 
许多 应 用 可 能 根本 不 需要 。 可 以 花 一 些 时 间 去 看 看 新 的 硬件 和 新 版 本 的 
MySQL 有 哪些 变化 ， 或 者 MySQL Cluster 有 哪些 新 的 进展 ， 其 至 去 评估 
一 些 专门 的 系统 ， 例 如 Clustrix。 毕 竟 数 据 分 片 是 一 个 手工 搭建 的 集群 
系统 ， 如 果 没 有 必要 ， 最 好 不 要 重复 发 明 轮 子 。 











当 存 在 多 个 服务 器 时 ， 可 能 出 现 跟 一 致 性 或 原子 性 相关 的 问题 。 我 


AVE BUEN sec EF a A) [ee ERD eT BE CHE ERR Fes DEVE Sil 
新 页 面 ， 但 找 不 到 刚刚 发 布 的 评论 ) ， 或 者 无 法 有 效 告 诉 应 用 哪些 服务 
需 是 可 写 的 ， 哪 些 是 可 读 的 。 后 一 种 可 能 更 严重 ， 如 采 将 应 用 的 写 操作 
指向 多 个 地 方 ， 束 会 不 可 避免 地 遭遇 数据 问题 ， 需 要 花费 大 量 时 间 而 且 
很 难 解决 。 负 载 均 衡器 可 以 解决 这 个 问题 ,但 它 本 喘 也 有 一 些 问题 ， 有 
时 候 还 会 使 得 原本 希望 解决 的 问题 恶化 。 这 也 是 我 们 在 下 一 章 要 讲述 高 
可 用 性 的 原因 。 


























(1) 从 物理 学 来 看 ， 单 位 时 间 内 做 的 功 称 为 功率 (power) ， 而 在 计算 机 领域 ,，“power”* 是 一 
个 被 反复 使 用 的 术语 ， 含 义 模糊 ， 因 此 应 避免 使 用 它 。 但 是 关于 容量 的 精确 定义 是 系统 的 最 大 
功率 输出 。 

(2) Justin Bieber, 我 们 仍然 爱 你 ! 

(3) 事实 上 ,，“ 投 资产 出 率 " 也 可 以 从 金融 投资 的 角度 来 考虑 。 将 一 个 组 件 的 容量 升级 到 两 倍 
所 需要 付出 的 常常 不 止 是 最 初 开 销 的 两 倍 。 虽 然 在 现实 世界 里 我 们 常常 这 么 考虑 ， 但 在 讨论 中 
会 将 其 忽略 掉 ， 因 为 它 会 使 一 个 已 经 复杂 的 主题 变 得 更 加 复杂 。 

(4) 你 也 可 以 阅读 我 们 的 白皮书 “Forecasting MySQL Scalability with the Universal Scalability 
Law”， 该 书 扼要 地 总 结 了 USL 中 的 数学 运算 和 法 则 ， 可 以 从 http:/www.percona.com 获 得 。 

(5) 现实 中 很 难 精确 定义 硬件 的 可 扩展 性 ， 因 为 当 你 改变 你 的 系统 中 的 服务 器 数量 时 很 难保 
证 那些 变量 不 变 。 

(6) 我 们 避免 使 用 措辞 “web 扩 展 ”(web scale) ， 因 为 它 已 经 变 得 毫 无 意义 ， 参 
li] http:/www.xtranormal.com/ watch/6995033/。 

[分 片 也 被 称 为 "分裂 "、“ 分 区 ”"， 但 是 我 们 使 用 “分 片 " 以 避免 混淆 。 谷 歌 将 它 称 为 “分 
片 "， 如 果 谷歌 觉得 这 样 称呼 合适 ， 我 们 采取 这 种 称呼 也 就 合适 了 。 

(8) ”这 里 的 “函数 ”使 用 了 其 数学 涵义 ， 表 示 从 输入 〔 域 到 输出 区间) 的 映射 。 如 你 所 
见 ， 可 以 用 很 多 方式 来 创建 类 似 的 函数 ， 包 括 在 数据 库 中 使 用 查找 表 。 

(9) Yeah, yeah, 我 们 知道 ， 为 你 的 工作 选择 正确 的 工具 。 这 里 引用 显而易见 但 听 起 来 很 有 意 
义 的 评论 。 

(10) 我 们 将 Akiban 包 含 在 集群 数据 库 列 表 中 可 能 并 不 准确 ， 因 为 它 并 不 是 真 
库 。 但 在 某 种 程度 上 它 和 其 他 一 些 NewSQL 数 据 库 很 像 。 
































































































































































































































的 集群 数据 
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(11) ”虚拟 IP 地 址 不 是 直接 连接 到 任何 特定 的 计算 机 或 网 络 端口 ， 而 是 “漂浮 ”在 计算 机 之 
间 。 

(12) ”你 可 以 把 诸如 LVS 这 样 的 解决 方案 配置 成 只 有 应 用 需要 创建 一 个 新 连接 时 才 参 与 进 
来 ， 此 后 不 再 作为 中 间 件 。 
(13) MySQL ”Proxy 是 个 例外 ， 但 目前 还 未 能 证 明 能 够 很 好 地 工作 ， 因 为 它 会 带 来 一 些 问 
题 ， 例 如 延迟 增加 以 及 可 扩展 性 瓶颈 。 
(14) 实际 上 ， 如 果 能 编码 实现 一 个 监听 80 端 口 的 程序 ， 或 者 配置 xinetd 来 调用 程序 ， 甚 至 不 
需要 再 安装 一 个 Web 服务器 。 






















































































第 12 章 ”局 可 用 性 


本 章 将 讲述 我 们 提 到 的 复制 、 可 扩展 性 以 及 高 可 用 性 三 个 主题 中 的 
第 三 人 个。 归根结底 ， 高 可 用 性 实际 上 意味 着 “更 少 的 宕 机 时 间 ”。 人 然而 精 
糙 的 是 ， 高 可 用 性 经 党 和 其 他 相关 的 概念 混 消 ， 例 如 元 余 、 保 隐 数 据 不 
丢失 ， 以 及 负载 均衡 。 我 们 而 望 之 前 的 两 章 已 经 为 清楚 地 理解 高 可 用 性 
做 了 足够 的 铺垫 。 跟 其 他 两 章 一 样 ， 这 一 章 也 不 仅仅 是 关注 高 可 用 性 的 
内 容 ， 一 些 相关 的 话题 也 会 综合 阐述 。 





12.1 什么 是 高 可 用 性 


高 可 用 性 实际 上 有 点 像 神秘 的 野兽 。 它 通常 以 百分比 表示 ， 这 本 身 
也 是 一 种 暗示 : 高 可 用 性 不 是 绝对 的 ， 只 有 相对 更 高 的 可 用 性 。100% 
的 可 用 性 是 不 可 能 达到 的 。 可 用 性 的 “9” 规 则 是 表示 可 用 性 目标 最 普遍 
的 方法 。 你 可 能 也 知道 , “5 个 9” 表 示 99.999% 的 正常 可 用 时 间 。 换 句 话 
说 ， 每 年 只 允许 5 分 钟 的 宕 机 时 间 。 对 于 大 多 数 应 用 这 已 经 是 令 人 惊叹 
的 数字 ， 尽 管 还 有 一 些 人 试图 获得 更 多 的 “9”。 

















每 个 应 用 对 可 用 性 的 需求 各 不 相同 。 在 设 定 一 个 可 用 时 间 的 目标 之 
前 ， 先 问 问 上 自己 ， 是 不 是 确实 需要 达到 这 个 目标 。 可 用 性 每 提高 一 点 ， 
所 人 花费 的 成 本 都 会 远 超 之 前 ;可 用 性 的 效果 和 开销 的 比例 并 不 是 线性 
的 。 需 要 保证 多 少 可 用 时 间 ， 取 决 于 能 够 承担 多 少 成 本 。 高 可 用 性 实际 
上 是 在 宕 机 造成 的 损失 与 降低 宕 机 时 间 所 花 缆 的 成 本 之 间 取 一 个 平衡 。 
换 句 话说 ， 如 果 需 要 伦 大 量 金钱 去 获得 更 好 的 可 用 时 间 ， 但 所 带 来 的 收 
葵 却 很 低 ， 可 能 就 不 值得 去 做 。 总 的 来 说 ， 应 用 在 超过 一 定 的 点 以 后 追 
求 更 高 的 可 用 性 是 非常 困难 的 ， 成 本 也 会 很 高 ， 因 此 我 们 建议 设 定 一 个 
更 现实 的 目标 并 且 避 免 过 度 设计 。 过 运 的 是 ， 建 并 2 个 9 或 3 个 9 的 可 用 时 
间 的 目标 可 能 并 不 困难 ， 具 体 情况 取决 于 应 用 。 











有 时 候 人 们 将 可 用 性 定义 成 服务 正在 运行 的 时 间 段 。 我 们 认为 可 用 
性 的 定义 还 应 该 包括 应 用 是 否 能 以 足够 好 的 性 能 处 理 请 求 。 有 许多 方法 
可 以 让 一 个 服务 器 保持 运行 ， 但 服务 并 不 是 真正 可 用 。 对 一 个 很 大 的 服 
务 吉 而 言 ， 重 局 MySQL 之 后 ， 可 能 需要 几 个 小 时 才能 充分 预 热 以 保证 
碍 询 请 求 的 啊 应 时 间 是 可 以 接受 的 ， 即 使 服务 器 只 接收 了 正 冰 流量 的 一 
小 部 分 也 是 如 此 。 











为 一 个 需要 考虑 的 问题 是 ， 即 使 应 用 并 没有 集 止 服务 ， 但 是 否 可 能 
丢失 了 数据 。 如 果 服 务 器 遭遇 灾难 性 故障 ， 可 能 多 少 都 会 丢失 一 些 数 
据 ， 例 如 最 近 已 经 写 入 (最 新 丢失 的 ) 二 进 制 日 志 但 尚未 传递 到 备 库 的 
中 继 日 志 中 的 事务 。 你 能 够 容忍 吗 ? 大 多 数 应 用 能 够 容忍 ; ANBARA 
案 大 多 非常 昂 贯 且 复 杂 ， 或 者 有 一 些 性 能 开销 。 例 如 ， 可 以 使 用 同步 复 
制 ， 或 是 将 二 进 制 日 志 放 到 一 个 通过 DRBD 进 行 复制 的 设备 上 ， 这 样 就 
算 服务 器 完全 失效 也 不 用 担心 丢失 数据 。《【〈 但 是 整个 数据 中 心 也 有 可 能 
RME. ) 


一 个 良好 的 应 用 架构 通常 可 以 降低 可 用 性 方面 的 需求 ， 人 至 少 对 部 分 
系统 而 言 是 这 样 的 ， 民 好 的 架构 也 更 容易 做 到 高 可 用 。 将 应 用 中 重要 和 
不 重要 的 部 分 进行 分 离 可 以 市 约 不 少 工 作 量 和 金钱， 因为 对 于 一 个 更 小 
的 系统 改进 可 用 性 会 更 容易 。 可 以 通过 计算 “风险 北口 (risk 
exposure) ”, 将 失效 概率 与 失效 代价 相 乘 来 确认 高 优先 级 的 风险 。 男 一 
个 简单 的 风险 计算 表 ， 以 概率 、 代 价 和 风险 敞 口 作 为 列 ， 这 样 很 容易 找 
到 需要 优先 处 理 的 项 目 。 


在 前 一 章 我 们 通过 讨论 如 何 避 免 导 致 糟糕 的 可 扩展 性 的 原因 ， 来 推 
出 如 何 获得 更 好 的 可 扩展 性 。 这 里 也 会 使 用 相似 的 方法 来 讨论 可 用 性 ， 
因为 我 们 相信 ， 理 解 可 用 性 最 好 的 方法 就 是 研究 它 的 反面 一 一 宕 机 时 
间 。 接 下 来 的 小 节 我 们 会 讨论 为 什么 会 出 现 宕 机 。 











12.2 导致 宕 机 的 原因 


我 们 经 常 昕 到 导致 数据 库 宕 机 最 主要 的 原因 是 编写 的 SQL 侍 询 性 能 
很 莽 ， 真 的 是 这 样 吗 ?2009 年 我 们 决定 分 析 我 们 客户 的 数据 库 所 过 到 的 
问题 ， 以 找 出 那些 真正 引起 宕 机 的 问题 ， 以 及 如 何 避 免 这 些 问题 中。 结 
果 证 实 了 一 些 我 们 已 有 的 猜想 ， 但 也 否定 了 一 些 ( 错 误 的 ) 认识 ， 我 们 
从 中 学 到 了 很 多 。 





我 们 首先 对 宕 机 事件 按 表 现 方式 而 非 导 致 的 原因 进行 分 类 。 一 般 来 
说 , “运行 环境 ?是 排名 第 一 的 宕 机 类 别 ， 大 约 35%% 的 事件 属于 这 一 类 。 
运行 环境 可 以 看 作 是 支持 数据 库 服 务 器 运行 的 系统 和 资源 集合 ， 包 括 操 
作 系 统 、 硬 盘 以 及 网 络 等 。 性 能 问题 紧 随 其 后 ， 也 是 约 占 35%; 然后 是 
复制 ， 占 20%; 最 后 剩 下 的 10% 包 含 各 种 类 型 的 数据 丢失 或 损坏 ， 以 及 
其 他 问题 。 





我 们 对 事件 按 类 型 进行 分 类 后 ， 确 定 了 导致 这 些 事件 的 原因 。 以 下 


是 一 些 需 要 注意 的 地 方 : 





。 在 运行 环境 的 问题 中 ， 最 普 过 的 问题 是 磁盘 空间 耗 尽 。 

o 在 性 能 问题 中 ， 最 普遍 的 宕 机 原因 确实 是 运行 很 糟糕 的 SQL， 但 也 
不 一 定 都 是 这 个 原因 ， 比 如 也 有 很 多 问题 是 由 于 服务 器 Bug 或 错误 
的 行为 导致 的 。 

。 FHKE MY Schema#ll & 5] Wert ee An) PE BEY Ta] pet o 

。 复制 问题 通常 由 于 主 备 数据 不 一 致 导致 。 

。 数据 丢失 问题 通常 由 于 DROP TABLE 的 误 操 作 导 致 ， 并 总 是 伴随 着 缺 
少 可 用 备份 的 问题 。 

















复制 虽然 常 被 人 们 用 来 改善 可 用 时 间 ， 但 却 也 可 能 导致 宕 机 。 这 主 
要 是 由 于 不 正确 的 使 用 导致 的 ， 即 便 如 此 ， 它 也 阐明 了 一 个 普 训 的 情 
况 : 许多 高 可 用 性 策略 可 能 会 产生 反作用 ， 我 们 会 在 后 面 讨论 这 个 话 











现在 我 们 已 经 知道 了 主要 宕 机 类 别 ， 以 及 有 什么 需要 注意 ， 下 面 我 
们 将 专门 介绍 如 何 获 得 高 可 用 性 。 


12.3 如何 实现 高 可 用 性 


可 以 通过 同时 进行 以 下 两 步 来 获得 高 可 用 性 。 首 先 ， 可 以 尝试 避免 
导致 宕 机 的 原因 来 减少 宕 机 时 间 。 许 多 问题 其 实 很 容易 避免 ， 例 如 通过 
适当 的 配置 、 监 控 ， 以 及 规范 或 安全 保障 措施 来 避免 人 为 错误 。 第 二 ， 
尽量 保证 在 发 生 宕 机 时 能 够 快速 恢复 。 最 常见 的 策略 是 在 系统 中 制造 见 
余 ， 并 且 有 具备 故障 转移 能 力 。 这 两 个 维度 的 高 可 用 性 可 以 通过 两 个 相关 
的 度量 来 确定 : 平均 失效 时 间 (MTBF) 和 平均 恢复 时 间 CMTTR) 。 
一 些 组 织 会 非常 仔细 地 退 踩 这 些 度量 值 。 





十 元 余 快 速 恢复 一 一 很 不 苇 ， 这 里 是 最 应 该 注意 的 地 
方 ， 但 预防 措施 的 投资 回报 率 会 很 高 。 接 下 来 我 们 来 探讨 一 些 了 预防 措 
fi 


12.3.1 提升 平均 失效 时 间 (MTBF) 


实 只 要 尽职 尽责 地 做 好 一 些 应 做 的 事情 ， 就 可 以 避免 很 多 宕 机 。 
在 分 EAEE EEE EAE, 我 们 还 友 现 ， 很 多 宕 机 
本 来 是 有 一 些 方法 可 以 避免 的 。 我 们 发现 大 部 分 宕 机 事件 都 可 以 通过 全 
面 的 第 识 性 系统 管理 办 法 来 避免 。 以 下 是 从 我 们 的 白皮书 中 摘录 的 指导 
性 建议 ， 在 白皮书 中 有 我 们 详细 的 分 析 结 
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。 测试 恢复 工具 和 流程 ， 包 括 从 备份 中 恢复 数据 。 
。 侍从 最 小 权限 原则 。 
。 保持 系统 干 滔 、 整 洁 。 


。 使 用 好 的 命名 和 组 织 约定 来 避免 产生 混乱 ， 例 如 服务 器 是 用 于 开发 
还 是 用 于 生产 环境 。 

VET HEFT HE HEARS AE o 

在 升级 前 ， 使 用 诸如 Percona Toolkit 中 的 ptupgrade 之 类 的 工具 仔细 
检查 系统 。 

使 用 InnoDB 并 进行 适当 的 配置 ， 确 保 InnoDB 是 默认 存储 引擎 。 如 
果 存 储 引 敬 补 禁止， 服务器 就 无 法 启动 。 

确认 基本 的 服务 器 配置 是 正确 的 。 

通过 skip_name_resolve 禁 I 上 DNS。 

除非 能 证 明 有 效 ， 人 否则 茶 用 得 询 缓存 。 

避免 使 用 复杂 的 特性 ， 例 如 复制 过 滤 和 人 触发 器 ， 除 非 确 实 需 要 。 
监控 重要 的 组 件 和 功能 ， 特 别 是 像 磁盘 空间 和 RAID 卷 状态 这 样 的 
关键 项 目 ， 但 也 要 避免 误 报 ， 只 有 当 确实 发 生 问 题 时 才 发 送 告 警 。 
尽量 记录 服务 器 的 状态 和 性 能 指数 ， 如 果 可 能 就 尽量 久 地 保存 。 
定期 检查 复制 完整 性 。 

将 备 库 设 置 为 只 读 ， 不 要 让 复制 自动 司 动 。 

定期 进行 查询 语句 审查 。 

归档 并 清理 不 需要 的 数据 。 

为 文件 系统 保留 一 些 空间 。 在 GNU/Linux 中 ， 可 以 使 用 -m 选 项 来 为 
文件 系统 本 喘 保留 空间 。 还 可 以 在 LVM 郑 组 中 留 下 一 些 空 用 空 
间 。 或 者 ， 更 简单 的 方法 ， 仅 仅 创建 一 个 巨大 的 空 文件 ， 在 文件 系 
统 快 满 时 ， 直 接 将 其 删除 。 乌 

养 成 习惯 ， 评 估 和 管理 系统 的 改变 、 状 态 以 及 性 能 信息 。 

















我 们 发 现 对 系统 变更 管理 的 缺失 是 所 有 导致 宕 机 的 事件 中 最 普 衣 的 
原因 。 和 典型 的 错误 包括 粗心 的 升级 导致 升级 失败 并 遭遇 一 些 Bug， 或 是 
尚未 测试 就 将 Schema 或 碍 询 语句 的 更 改 直 接 运 行 到 线 上 ， 或 者 没有 为 一 











些 失败 的 情况 制定 计划 ， 例 如 达到 了 磁盘 容量 限制 。 另 外 一 个 导致 问题 
的 主要 原因 是 缺少 严格 的 评 佑 ， 例 如 因为 疏忽 没有 确认 备份 是 否 是 可 以 
恢复 的 。 最 后 ， 可 能 没有 正确 地 监控 MySQL 的 相关 信息 。 例 如 缓存 命 
中 紊 报警 并 不 能 说 明 出 现 问题 ， 并 且 可 能 产生 大 量 的 误 报 ， 这 会 使 监控 
系统 被 认为 不 太 有 用 ， 于 是 一 些 人 就 会 急 略 报警 。 有 时 候 监控 系统 失效 
了 ， 甚 至 没 人 会 注意 到 ， 直 至 你 的 老板 质问 你 ,“ 为 什么 Nagios 没 有 告 
诉 我 们 磁盘 已 经 满 了 ”。 


12.3.2 ”降低 平均 恢复 时 间 CMTTR) 








之 前 提 到 ， 可 以 通过 减少 恢复 时 间 来 获得 高 可 用 性 。 事 实 上 ， 一 些 
人 走 得 更 远 ， 只 专注 于 减少 恢复 时 间 的 某 个 方面 ， 通过 在 系统 中 建 并 元 
余 来 避免 系统 完全 失效 ， 并 避免 单 点 失效 问题 。 





在 降低 恢复 时 间 上 进行 投资 非常 重要 ， 一 个 能 够 提供 元 余 和 故障 转 
移 能 力 的 系统 架构 ， 则 是 降低 恢复 时 间 的 关键 环节 。 但 实现 高 可 用 性 不 
单单 是 一 个 技术 问题 ， 还 有 许多 个 人 和 组 织 的 因素 。 组 织 和 个 人 在 避免 
宕 机 和 从 宕 机 事件 中 恢复 的 成 熟 度 和 能 力 层 次 各 不 相同 。 








团队 成 员 是 最 重要 的 高 可 用 性 资产 ， 所 以 为 恢复 制定 一 个 好 的 流程 
非常 重要 。 拥 有 熟练 技能 、 应 变 能 力 、 训 练 有 素 的 雇员 ， 以 及 处 理 紧 急 
事件 的 详细 文档 和 经 过 仔细 测试 的 流程 ， 对 从 宕 机 中 恢复 有 巨大 的 作 
用 。 但 也 不 能 完全 依赖 工具 和 系统 ， 因 为 它们 并 不 能 理解 实际 情况 的 细 
微 送 别 ， 有 时 候 它们 的 行为 在 一 般 情 况 下 是 正确 的 ， 但 在 茶 些 场景 下 却 


会 是 个 灾难 ! 





对 宕 机 事件 进行 评估 有 助 于 提升 组 织 学 习 能 力 ， 可 以 帮助 避免 未 来 








发 生 相 似 的 错误 ， 但 是 不 要 对 “事后 反思 ?或 “事后 的 调查 分 析 ” 期 符 太 
高 。 后 见 之 明 被 严重 曲解 ， 并 且 一 味 想 找 到 导致 问题 的 唯一 根源 ， 这 可 
能 会 影响 你 的 判断 力 急 。 许 多 流行 的 方法 ， 例 如 “五 个 为 什么 ”， 可 能 会 
被 过 度 使 用 ， 导 致 一 些 人 将 他 们 的 精力 集中 在 找到 唯一 的 谷 徘 羊 。 很 难 
去 回顾 我 们 解决 的 问题 当时 所 处 的 状况 ， 也 很 难 理解 真正 的 原因 ， 因 为 
原因 通常 是 多 方面 的 。 因 此 ， 尽 管事 后 反思 可 能 是 有 用 的 ， 但 也 应 该 对 
结论 有 所 保留 。 即 使 是 我 们 给 出 的 建议 ， 也 是 基于 长 期 研究 导致 宕 机 事 
件 的 原因 以 及 如 何 预防 它们 所 得 ， 并 且 只 是 我 们 的 观点 而 已 。 





这 里 我 们 要 反复 提醒 : 所 有 的 宕 机 事件 都 是 由 多 方面 的 失效 联合 在 
一 起 导致 的 。 因 此 ， 可 以 通过 利用 合适 的 方法 确保 单 点 的 安全 来 避免 。 
整个 链条 必须 要 打 断 ， 而 不 仅仅 是 单个 环节 。 例 如 ， 那 些 回 我 们 求助 恢 
复数 据 的 人 不 仅 踢 受 数据 丢失 《存储 失效 ，DBA 误 操作 等 ) ， 同 时 还 缺 
少 一 个 可 用 的 备份 。 











这 样 说 来 ， 当 开始 调查 并 尝试 阻止 失效 或 加 速 恢复 时 ， 大 多 数 人 和 
组 织 不 应 太 过 于 内 次 ， 而 是 要 专注 于 技术 上 的 一 些 措施 一 一 特别 是 那些 
很 酷 的 方法 ， 例 如 集群 系统 和 克 余 架构 。 这 些 是 有 用 的 ， 但 要 记 住 这 些 
系统 依然 会 失效 。 事 实 上 ， 在 本 书 第 二 版 中 提 到 的 MMM 复 制 管理 ， 我 
们 已 经 失去 了 兴趣 ， 因 为 它 被 证 明 可 能 导致 更 多 的 宕 机 时 间 。 你 应 该 不 
会 奇怪 一 组 Perl 脚 本 会 陷于 混乱 ， 但 即使 是 特别 昂贵 并 精密 设计 的 系统 
也 会 出 现 灾难 性 的 失效 一 一 是 的 ， 即 使 是 花费 了 大 量 金钱 的 SAN 也 是 如 
此 。 我 们 已 经 见 过 太 多 的 SAN 失 效 。 








12.4 避免 单 点 失效 


找到 并 消除 系统 中 的 可 能 失效 的 单 点 ， 并 结合 切换 到 备用 组 件 的 机 
制 ， 这 是 一 种 通过 减少 恢复 时 间 (MTTR) 来 改善 可 用 性 的 方法 。 如 果 
你 够 聪明 ， 有 时 候 甚至 能 将 实际 的 恢复 时 间 降 低 全 0， 但 总 的 来 说 这 很 
困难 。《〈 即 使 一 些 非常 引 人 注 目的 技术 ， 例 如 昂 贯 的 负载 均衡 器 ， 在 发 
现 问题 并 进行 反馈 时 也 会 导致 一 定 的 延迟 。) 





思考 并 梳理 整个 应 用 ， ie eee ee re 
盘 驱 动 器 ， 一 人 台 服 务 器 ， 一 全 交换 或 路 由 器 ， 还 是 某 个 机 架 的 电源 ? 所 
有 数据 都 在 一 个 数据 中 心 ， 或 者 元 余数 据 中 心 是 由 同一 个 公司 提供 的 
吗 ? 系统 中 任何 不 元 余 的 部 分 都 是 一 个 可 能 失效 的 单 点 。 其 他 比较 普遍 
的 单 点 失效 依赖 于 一 些 服 务 ， 例 如 DNS、 单 一 网 络 提供 商 多 、 单 个 
云 “可 用 区 域 "， 以 及 单个 电力 输送 网 ， 具 体 有 哪些 取决 于 你 的 关注 点 。 








单 点 失效 并 不 总 是 能 够 消除 。 增 加 元 余 或 许 也 无 法 做 到 ， 因 为 有 些 
限制 无 法 避 开 ， 例 如 地 理 位 置 ， 预 算 ， 或 者 时 间 限 制 等 。 试 着 去 理解 每 
一 个 影 啊 可 用 性 的 部 分 ， 采 取 一 种 平衡 的 观点 来 看 待 风险， 并 首先 解雇 
其 中 影响 最 大 的 那个 。 一 些 人 试图 编写 一 个 软件 来 处 理 所 有 的 硬件 失 
效 ， 但 软件 本 里 导致 的 宕 机 时 间 可 能 比 它 市 约 的 还 要 多 。 也 有 人 想 建 并 
一 种 “ 永 不 沉没 ”的 系统 ， 包 括 各 种 见 余 ， 但 他 们 息 记 了 数据 中 心 可 能 挥 
eee BVPIs i SS Boo A AE PRR AY FY TE, 

这 些 情况 可 能 会 删除 或 损坏 数据 一 一 一 个 不 小 心 执行 的 DROP TABLE, 
BPE ARE, 


可 以 采用 两 种 方法 来 为 系统 增加 元 余 : 增加 空余 容量 和 重复 组 件 。 

















HIRERE TTR fn] 4} —— J D158 A AS BB — BT 8 EAT A 
一 个 提升 可 用 性 的 方法 是 创建 一 个 集群 或 服务 器 池 ， 并 使 用 负载 均衡 解 
决 方案 。 如 果 一 台 服 务 器 失效 ， 其 他 服务 器 可 以 接管 它 的 负载 。 有 些 人 
意识 地 不 使 用 组 件 的 全 部 能 力 ， 这 样 可 以 保留 一 些 “ 动 态 余 量 ”来 处 理 
因为 负载 增加 或 组 件 失效 导致 的 性 能 问题 。 














出 于 很 多 方面 的 考虑 会 需要 宛 余 组 件 ， 并 在 主要 组 件 失效 时 能 有 一 
个 备件 来 随时 谷 换 。 元 余 组 件 可 以 是 空闲 的 网 卡 、 路 由 器 或 者 硬盘 驱动 
需 一 一 任何 能 想到 的 可 能 失效 的 东西 。 完 全 元 余 MYSQL 服务 喜 可 能 
点 困难 ， 因 为 一 个 服务 器 在 没有 数据 时 坚 无 用 处 。 这 意味 着 你 必须 确保 
备用 服务 器 能 够 获得 主 服 务 器 上 的 数据 。 共 享 或 复制 存储 是 一 个 比较 流 
行 的 办 法 ， 但 这 真 的 是 一 个 高 可 用 性 架构 吗 ? 让 我 们 深入 其 中 看 看 。 


12.4.1 共享 存储 或 磁 松 复制 


共享 存储 能 够 为 数据 库 服 务 器 和 存储 解 耘 合 ， 通 常 使 用 的 是 SAN。 
使 用 共享 存储 时 ， 服 务 器 能 够 正常 挂 载 文 件 系 统 并 进行 操作 。 如 果 服 务 
器 挂 了 ， 备 用 服务 器 可 以 挂 载 相同 的 文件 系统 ， 执 行 需要 的 恢复 操作 ， 
并 在 失效 服务 器 的 数据 上 启动 MySQL。 这 个 过 程 在 逻辑 上 跟 修复 那 台 
故障 的 服务 器 没什么 两 样 ， 不 过 更 快速 ， 因 为 备用 服务 器 已 经 启动 ， 随 
时 可 以 运行 。 当 开始 故障 转移 时 ， 检 查 文 件 系统 、 恢 复 ImmnoDB 以 及 预 
热电 是 最 有 可 能 遇 到 延迟 的 地 方 ， 但 检测 失效 本 身 在 许多 设置 中 也 会 花 
费 很 长 时 间 。 

















共有 至 存储 有 两 个 优点 ， 可 以 避免 除 存 储 外 的 其 他 任何 组 件 失 效 所 引 
起 的 数据 丢失 ， 并 为 非 存 储 组 件 建立 见 余 提供 可 能 。 因 此 它 有 助 于 减少 
系统 一 些 部 分 的 可 用 性 需求 ， 这 样 就 可 以 集中 精力 关注 一 小 部 分 组 件 来 


获得 高 可 用 性 。 不 过 ， 共 享 存储 本 里 仍 是 可 能 失效 的 日 点 。 如 果 共 至 存 
储 失 效 了 ， 那 整个 系统 也 失效 了 ， 尺 管 SAN 通 常设 计 民 好 ， 但 也 可 能 
效 ， 有 时 候 需要 特别 关注 。 束 算 SAN 本 吴 拥 有 元 余 也 会 失效 。 


主动 一 主动 访问 模式 的 共享 存储 怎么 样 ? 


在 一 个 SAN、NAS 或 者 集群 文件 系统 上 以 主动 一 主动 模式 运行 多 个 
实例 怎么 样 ? MySQL 不 能 这 么 做 。 因 为 MySQL 并 没有 被 设计 成 和 其 他 
MySQL 实 例 同步 对 数据 的 访问 ， 所 以 无 法 在 同一 份 数据 上 开局 多 个 
MySQL 实 例 。 (如 果 在 一 份 只 读 的 静态 数据 上 使 用 My1SAM， 技 术 上 是 


可 行 的 ， 但 我 们 还 没有 见 过 任何 实际 的 应 用 。) © 


MySQL 的 一 个 名 为 ScaleDB 的 存储 引擎 在 底层 提供 了 操作 共享 存储 
的 AP1， 但 我 们 还 没有 评估 过 ， 也 没有 见 过 任何 生产 环境 使 用 。 在 写 
作 本 书 时 它 还 是 beta 版 。 











共 圣 存储 本 映 也 有 风险 ， 如 果 MySQL 衣 演 等 故障 导致 数 据 文件 损 
坏 ， 可 能 会 导致 备用 服务 器 无 法 恢复 。 我 们 强烈 建议 在 使 用 共 孚 存储 策 
略 时 选择 InnoDB 存 储 引 擎 或 其 他 稳定 的 ACID 存储 引擎 。 一 次 朋 误 几乎 
肯定 会 损坏 MyISAM 表 ， 需 要 花费 很 长 时 间 来 修复 ， 并 且 会 丢失 数据 。 
我 们 也 强烈 建议 使 用 日 志 型 文件 系统 。 我 们 见 过 比较 严重 的 情况 是 ， 使 
用 非 日 志 型 文件 系统 和 SAN 《〈 这 是 文件 系统 的 问题 ， 跟 SAN 无 天 ) 导致 
数据 损坏 无 法 恢复 。 











磁盘 复制 技术 是 另外 一 个 获得 跟 SAN 类 似 效果 的 方法 。MySQL 中 
最 普遍 使 用 的 磁盘 复制 技术 是 DRBD (http:/www.drbd.org) ， 并 结合 


Linux-HA 项 目 中 的 工具 使 用 《后 面 会 介绍 到 ) 。 


DRBD 是 一 个 以 Linux 内 核 模块 方式 实现 的 块 级 别 同步 复制 技术 。 它 
通过 网 卡 将 主 服务 器 的 每 个 块 复制 到 另外 一 个 服务 器 的 块 设备 上 《备用 
We) ， 并 在 主 设备 提交 块 之 前 记录 下 来 中 。 由 于 在 备用 DRBD 设 备 上 
的 写 入 必须 要 在 主 设备 上 的 写 入 完成 之 前 ， 因 此 备用 设备 的 性 能 至 少 要 
和 主 设备 一 样 ， 人 否则 就 会 限制 主 设备 的 号 入 性 能 。 同 样 ， 如 果 正 在 使 用 
DRBD 磁 盘 复 制 技术 以 保证 在 主 设备 失效 时 有 一 个 可 随时 蔡 换 的 备用 设 
备 ， 备 用 服务 器 的 便 件 应 该 跟 主 服 务 器 的 相 匹 配 。 带 电池 写 绥 存 的 
RAID 控 制 器 对 DRBD 而 言 几 乎 是 必需 的 ， 因 为 在 没有 这 样 的 控制 器 时 
性 能 可 能 会 很 差 。 











如 果 主 服务 器 失效 ， 可 以 把 备用 设备 提升 为 主 设备 。 因 为 DRBD 是 
在 磁盘 块 层 进行 复制 ， 而 文件 系统 也 可 能 会 不 一 致 。 这 意味 着 最 好 是 使 
用 日 志 型 文件 系统 来 做 快速 恢复 。 一 旦 设备 恢复 完成 ，MySQL 还 需要 
运行 自身 的 恢复 。 原 故障 服务 器 恢复 后 ， 会 与 新 的 主 设备 进行 同步 ， 并 
假定 自身 角色 为 备用 设备 。 














从 如 何 实际 地 实现 故障 转移 的 角度 来 看 ， DRBD 和 SAN 很 相似 : 有 
一 个 热 备 机 器 ， 开 始 提供 服务 时 会 使 用 和 故障 机 喜 相 同 的 数据 。 最 大 的 
不 同 是 ，DRBD 是 复制 存储 一 一 不 是 共 至 存储 一 一 所 以 当 使 用 DRBD 
时 ， 获 得 的 是 一 份 复制 的 数据 ， 而 SAN 则 是 使 用 与 故障 机 器 同一 物理 设 
备 上 的 相同 数据 副本 。 换 句 话 说 ,磁盘 复制 搁 术 的 数据 是 见 余 的 ， 所 以 
存储 和 数据 本 身 都 不 会 存在 单 点 失效 问题 。 这 两 种 情况 下 ， 当 局 动 备用 
HLAS, ”MySQL 服务 器 的 缓存 都 是 空 的 。 相 比 之 下 ， 备 库 的 缓存 人 至少 
征 部 分 预 热 的 。 














DRBD 有 一 些 很 好 的 特性 和 功能 ， 可 以 防止 集群 软件 普遍 会 遇 到 的 


一 些 问题 。 一 个 典型 的 例子 是 “ 脑 裂 综合 征 >， 在 两 个 节点 同时 提升 目 己 
为 主 服务 器 时 会 发 生 这 种 问题 。 可 以 通过 配置 DRBD 来 防止 这 种 事件 发 


Ee 


但 是 DRBD 也 不 是 一 个 能 满足 所 有 需求 的 完美 解决 方案 。 我 们 来 看 


看 它 有 哪些 缺点 : 








DRBD 的 故障 转移 无 法 做 到 秒 级 以 内 。 它 通常 至 少 需 要 几 秒 钟 时 间 
来 将 备用 设备 提升 成 主 设备 ， 这 还 不 包括 任何 必要 的 文件 系统 恢复 
和 MYySQL 恢 复 。 

它 很 昂贵 ， 因 为 必须 在 主动 一 被 动 模式 下 运行 。 热 备 服务 器 的 复制 
设备 因为 处 于 被 动 模式 ， 无 法 用 于 其 他 任务 。 当 然 这 是 不 是 缺点 取 
决 于 看 问题 的 角度 。 如 果 你 希望 获得 真正 的 高 可 用 性 并 且 在 发 生 故 
障 时 不 能 容忍 服务 降级 ， 就 不 应 该 在 一 台 机 器 上 运行 两 台 服 务 器 的 
负载 量 ， 因 为 如 果 这 人 么 做 了 ， 当 其 中 一 台 发 生 故 障 时 ， 就 无 法 处 理 
这 些 负载 了 。 可 以 用 这 些 备 用 服务 器 做 一 些 其 他 用 途 ， 例 如 用 作 备 
库 ， 但 还 是 会 有 一 些 资 源 浪费 。 

对 于 MyISAM 表 实际 上 用 处 不 大 ， 因 为 MyISAM 表 崩溃 后 需要 花费 
很 长 时 间 来 检查 和 修复 。 对 任何 期 望 获得 高 可 用 性 的 系统 而 言 ， 
MyISAM 都 不 是 一 个 好 选择 ， 请 使 用 ImnnoDB 或 其 他 支持 快速 、 安 全 
恢复 的 存储 引擎 来 代替 MyISAM。 

DRBD 无 法 代替 备份 。 如 果 磁 盘 由 于 蓄意 的 破坏 、 误 操作 、Bug 或 
者 其 他 硬件 故障 导致 数据 损坏 ，DRBD 将 无 济 于 事 。 此 时 复制 的 数 
据 只 是 被 损坏 数据 的 完美 副本 。 你 需要 使 用 备份 (或 MySQL 延 时 
复制 ) 来 避免 这 些 问 题 。 

对 写 操作 而 言 增加 了 负担 。 具 体会 增加 多 少 负 担 呢 ? 通 常 可 以 使 用 
百分比 来 表示 ， 但 这 并 不 是 一 个 好 的 度量 方法 。 你 需要 理解 号 入 时 
增加 的 延迟 主要 由 网 络 往返 开销 和 远程 服务 器 存储 导致 ， 特 别 是 对 
于 小 的 写 入 而 言 延 迟 会 更 大 。 尽 管 增加 的 延迟 可 能 也 就 0.3ms， 这 

















看 起 来 比 在 本 地 磁盘 上 IO 的 4 一 10ms 的 延迟 要 小 很 多 ， 但 却 是 正常 
的 带 有 写 缓 存 的 RAID 控 制 器 的 延迟 的 3 一 4 倍 。 使 用 DRBD 导 致 服 
务 右 变 慢 最 常见 的 原因 是 MySQL 使 用 InnoDB 并 采取 了 完全 持久 化 
模式 包 ， 这 会 导致 许多 小 的 写 入 和 fsyncO 调 用 ， 通 过 DRBD 同 步 时 
会 非常 慢 。 乌 





我 们 倾 问 于 只 使 用 DRBD 复 制 存 放 二 进 制 日 志 的 设备 。 如 果 主 动 节 
点 失效 ， 可 以 在 被 动 节点 上 开局 一 个 日 志 服 务 器 ， 然 后 对 失效 主 库 的 所 
有 备 库 应 用 这 些 二 进 制 日 志 。 接 下 来 可 以 选择 其 中 一 个 备 库 提 升 为 主 
E, DARE ASU BS 








说 到 底 ， 共 享 存储 和 磁盘 复制 与 其 说 是 高 可 用 性 ( 低 宕 机 时 间 〉 解 
决 方案 ， 不 如 说 是 一 种 保证 数据 安全 的 方法 。 只 要 拥有 数据 ， 就 可 以 从 
故障 中 恢复 ， 并 且 比 无 法 恢复 的 情况 的 MITR 更 低 。“〈 即 使 是 很 长 的 恢 
复 时 间 也 比 不 能 恢复 要 快 。) 但 是 相 比 于 备用 服务 器 启动 并 一 直 运 行 的 

架构 ， 大 多 数 共享 存储 或 磁盘 复制 架构 会 增加 MTTR。 有 两 种 启用 备用 
设备 并 运行 的 方法 : 我 们 在 第 10 章 讨论 的 标准 的 MySQL 复 制 ， 以 及 接 
下 来 会 讨论 的 同步 复制 。 








12.4.2 ”MYSQL 同步 复制 





当 使 用 同步 复制 时 ， 主 库 上 的 事务 只 有 在 至 少 一 个 备 库 上 提交 后 才 
能 认为 其 执行 完成 。 这 实现 了 两 个 目标 : 当 服 务 器 骨 尝 时 没有 提交 的 事 
务 会 丢失 ， 并 且 至 少 有 一 个 备 库 拥有 实时 的 数据 副本 。 大 多 数 同步 复制 
染 构 运行 在 主动 -主动 模式 。 这 意味 着 每 个 服务 占 在 任何 时 候 都 是 故障 
转移 的 候选 者 ， 这 使 得 通过 元 余 获得 高 可 用 性 更 加 容易 。 




















在 写作 本 书 时 ，MySQL 本 身 并 不 支持 同步 复制 40， 但 有 两 个 基于 
MySQL 的 集群 解决 方案 文 持 同步 复制 。 你 还 可 以 阅读 第 10 章 、 第 11 章 
和 第 13 章 讨论 的 其 他 产品 ， 例 如 Continuent Tungsten 以 及 Clustrix， 这 些 
都 相当 有 意思 。 











1. MySQL Cluster 





MySQL 中 的 同步 复制 首先 出 现在 MySQL Cluster (NDB Cluster) 。 
它 在 所 有 节点 上 进行 同步 的 主 - 主 复制 。 这 意味 着 可 以 在 任何 节点 上 写 
A; 这 些 节 点 拥有 等 同 的 读 写 能 力 。 每 一 行 都 是 见 余 存储 的 ， 这 样 即使 
丢失 了 一 个 节点 ， 也 不 会 丢失 数据 ， 并 且 集 群 仍然 能 提供 服务 。 尽 管 
MySQL Cluster 还 不 是 适用 于 所 有 应 用 的 完美 解决 方案 ， 但 正如 我 们 在 
前 一 章 提 到 的 ， 在 最 近 的 版 本 中 它 做 了 非常 快速 的 改进 ， 现 在 已 经 拥有 
大 量 的 新 特性 和 功能 : 非 索引 数据 的 磁盘 存储 、 增 加 数据 节点 能 够 在 线 
扩展 、 使 用 ndbinfo 表 来 管理 集群 、 配 置 和 管理 集群 的 脚本 、 多 线程 操 
作 、 下 推 (push-down) 的 关联 操作 (现在 称 为 自 适 应 查询 本 地 化 〉、 
能 够 处 理 BLOB 列 和 很 多 列 的 表 、 集 中 式 的 用 户 管理 ， 以 及 通过 像 
memcached 协 议 一 样 的 NDB API 来 实现 NoSQL 访 问 。 在 下 一 个 版 本 中 将 
包含 最 终 一 致 运行 模式 ， 包 括 为 路 数据 中 心 的 主动 -主动 复制 提供 事务 
冲突 检测 和 跨 WAN 解 决 方案 。 简 而 言 之 ，MySQL Cluster 是 一 项 引 人 注 
目的 技术 。 





























现在 至 少 有 两 个 为 简化 集群 部 普 和 管理 提供 附加 产品 的 供应 丙 : 
Oracle 针 对 MySQL Cluster 的 服务 支持 包含 了 MySQL Cluster Manager T. 
具 ; Severalnines 提 供 了 Cluster Control 工 具 
(http:/www.severalnines.com) , Z TRX Ret AE Wye eA E ES iil] Ge 





群 。 


2. Percona XtraDB Cluster 


Percona XtraDB Cluster 是 一 个 相对 比较 新 的 技术 ， 基 于 已 有 的 
XtraDB (InnoDB) 存储 引擎 增加 了 同步 复制 和 集群 特性 ， 而 不 是 通过 
一 个 新 的 存储 引擎 或 外 部 服务 器 来 实现 。 它 是 基于 Galera 〈 文 持 在 集群 
中 跨 节 点 复制 写 操作 ) 实现 的 4， 这 是 一 个 在 集群 中 不 同 节点 复制 写 
操作 的 库 。 跟 MySQL Cluster 类 似 ，Percona XtraDB Cluster 提 供 同步 多 主 
库 复制 5， 支持 真正 的 任意 节点 写 入 能 力 ， 能 够 在 节点 失效 时 保证 数 
ERER GFA, ACID 中 的 D) ， 另 外 还 提供 高 可 用 性 ， 在 整个 集 
群 没有 失效 的 情况 下 ， 就 算 单 个 节点 失效 也 没有 关系 。 








Galera 作 为 研 层 技术 ， 使 用 一 种 被 称 为 写 入 集合 (write-set) 复制 的 
技术 。 写 入 集合 实际 上 说 作 为 基于 行 的 二 进 制 日 志 事 件 进行 编码 ， 目 的 
古 在 集群 中 的 布点 间 传 输 并 进行 更 新 ， 但 是 这 不 要 求 二 进 制 日 志 是 打开 
的 。 


Percona XtraDB Cluster 的 速度 很 快 。 踊 节点 复制 实际 上 比 没有 集群 
还 要 快 ， 因 为 在 完全 持久 性 模式 下 ， 写 入 远程 RAM 比 写 入 本 地 磁盘 要 
快 。 如 果 你 愿意 ， 可 以 选择 通过 降低 每 个 节点 的 持久 性 来 获得 更 好 的 性 
能 ， 并 且 可 以 依赖 于 多 个 节点 上 的 数据 副本 来 获得 持久 性 。NDB 也 是 基 
于 同样 的 原理 实现 的 。 集 群 在 整体 上 的 持久 性 并 没有 降低 ; 仅仅 是 降低 
了 本 地 节点 的 持久 性 。 除 此 之 外 ， 还 支持 行 级 别 的 并 发 〈 多 线程 ) 复 
制 ， 这 样 就 可 以 利用 多 个 CPU 核 心 来 执行 写 入 集合 。 这 些 特 性 结合 起 来 
使 得 Percona XtraDB Cluster 非 常 适合 云 计算 环境 ， 因 为 云 计算 环境 中 的 
CPU 和 磁盘 通常 比较 慢 ，。 








在 集群 中 通过 设置 auto_increment_offset 和 
auto_increment_increment 来 实现 自 增 键 ， 以 使 节点 间 不 会 生成 冲突 的 
主键 值 。 锁 机 制 和 标准 InnoDB 完 全 相同 ， 使 用 的 是 乐观 并 发 控制 。 当 
事务 提交 时 ， 所 有 的 更 新 是 序列 化 的 ， 并 在 节点 间 传 输 ， 同 时 还 有 一 个 
检测 过 程 ， 以 保证 一 旦 发 生 更 新 冲突 ， 其 中 一 些 更 新 操作 需要 丢弃 。 这 
样 如 果 许 多 节点 同时 修改 同样 的 数据 ， 可 能 产生 大 量 的 死 锁 和 回 滚 。 


Percona XtraDB Cluster 只 要 集群 内 在 线 的 节点 数 不 少 于 “法定 人 数 
(quorum) ”就 能 保证 服务 的 高 可 用 性 。 如 果 发 现 某 个 节点 不 属于 “法 定 
人 数 ” 中 的 一 员 ， 束 会 从 集群 中 将 其 中 出 。 被 踢 出 的 节点 在 再 次 加 入 集 
群 前 必须 重新 闻 步 。 因 此 集群 也 无 法 处 理 “ 脑 裂 综合 征 ”， 如果 出 现 脑 裂 
则 集群 会 停止 服务 。 在 一 个 只 有 两 个 节点 的 集群 中 ， 如 采 其 中 一 个 节点 
失效 ， 剩 下 的 一 个 节点 达 不 到 “法 定 人 数 ”， 集 群 将 停止 服务 ， 所 以 实际 
上 最 少 需要 三 个 节点 才能 实现 高 可 用 的 集群 。 











Percona XtraDB Cluster 有 许多 优点 : 


提供 了 基于 InnoDB 的 透明 集群 ， 所 以 无 须 转换 到 另外 的 技术 ， 例 
如 NDB 这 样 完全 不 同 的 技术 需要 很 多 学 习 成 本 和 管理 。 

提供 了 真正 的 高 可 用 性 ， 所 有 节点 等 效 ， 并 在 任何 时 候 提供 读 写 服 
务 。 相 比较 而 言 ，MySQL 内 建 的 异步 复制 和 半 同 步 复制 必须 要 有 
一 个 主 库 ， 并 且 不 能 保证 数据 被 复制 到 备 库 ， 也 无 法 保证 备 库 数 据 
是 最 新 的 并 能 够 随时 提升 为 主 库 。 

节点 失效 时 保证 数据 不 丢失 。 实 际 上 ， 由 于 所 有 的 节点 都 拥有 全 部 
数据 ， 因 此 可 以 丢失 任意 一 个 节点 而 不 会 丢失 数据 《即使 集群 出 现 
脑 裂 并 停止 工作 〉，。 这 和 NDB 不 同 ， NDB 通 过 节点 组 进行 分 区 ， 
当 在 一 个 节点 组 中 的 所 有 服务 器 失效 时 就 可 能 丢失 数据 。 

。 备 库 不 会 延迟 ， 因 为 在 事务 提交 前 ， 写 入 集合 已 经 在 集群 的 所 有 节 

















点 上 传播 并 被 确认 了 。 

因为 是 使 用 基于 行 的 日 志 事 件 在 备 库 上 进行 更 新 ， 所 以 执行 写 入 集 
合 比 直 接 执 行 更 新 的 开销 要 小 很 多 ， 就 和 使 用 基于 行 的 复制 差 不 
多 。 妆 结合 多 线程 应 用 的 写 入 集合 时 ， 可 以 使 其 比 MySQL 本 里 的 
复制 更 具备 可 扩展 性 。 











当然 我 们 也 需要 提 及 Percona XtraDB Cluster 的 一 些 缺 点 : 


它 很 新 ， 因 此 还 没有 足够 的 经 验 来 证 明 其 优点 和 缺点 ， 也 缺乏 合适 
的 使 用 案例 。 

整个 集群 的 写 入 速度 由 最 差 的 节点 决定 。 因 此 所 有 的 节点 最 好 拥有 
FAIRE PRS, WR POR Cla, RAID Fi i 
battery-learn 4A) ， 所 有 的 节点 都 会 慢 下 来 。 如 果 一 个 节点 接收 
写 入 操作 变 慢 的 可 能 性 为 P， 那 么 有 3 个 节点 的 集群 变 慢 的 可 能 性 为 
3P。 

没有 NDB 那 样 节省 空间 ， 因 为 每 个 节点 都 需要 保存 全 部 数据 ， 而 不 
是 仅仅 一 部 分 。 但 另 一 方面 ， 它 基于 Percona XtraDB (InnoDB 的 增 
强 版 本 ) ， 也 就 没有 NDB 关 于 磁盘 数据 限制 的 担忧 。 

当前 不 文 持 一 些 在 异步 复制 中 可 以 做 的 操作 ， 例 如 在 备 库 上 离线 修 
改 schema， 人 然后 将 其 提升 为 主 库 ， 然 后 在 其 他 节点 上 重复 离线 修改 
操作 。 当 前 可 蔡 代 的 选择 是 使 用 诸如 Percona Toolkit 中 的 在 线 
Schema 修改 工具 。 不 过 滚动 式 schema 升 级 (rolling schema 
upgrade) 在 写作 本 书 时 也 即将 发 布 。 

当 回 集群 中 增加 一 个 新 节点 时 ， 需 要 复制 所 有 的 数据 ， 还 需要 跟 上 
不 断 进行 的 写 入 操作 ， 所 以 一 个 拥有 大 量 写 入 的 大 型 集群 很 难 进行 
扩容 。 这 实际 上 限制 了 集群 的 数据 大 小 。 我 们 无 法 确定 具体 的 数 
据 。 但 悲观 地 估计 可 能 低 至 100GB 或 更 小 ， 也 可 能 会 大 得 多 。 这 一 




















点 需要 时 间 和 经 验 来 证 明 。 

复制 协议 在 写 入 时 对 网 络 波动 比较 敏感 ， 这 可 能 导致 节点 停止 并 从 
集群 中 跑 出 。 所 以 我 们 推荐 使 用 高 性 能 网 络 ， 力 外 还 需要 很 好 的 元 
余 。 如 采 没 有 可 靠 的 网 络 ， 可 能 会 导致 需要 频繁 地 将 节点 加 入 到 集 
群 中 。 这 需要 重新 同步 数据 。 在 写本 书 时 ， 有 一 个 几乎 接近 可 用 的 
特性 ， 即 通过 增 量 状态 传输 来 避免 完全 复制 数据 集 ， 因 此 未 来 这 并 
不 是 一 个 问题 。 还 可 以 配置 Galera 以 容忍 更 大 的 网 络 延 迟 《〈 以 延迟 
故障 检测 为 代价 ) ， 妨 外 更 加 可 靠 的 算法 也 计划 在 未 来 的 版 本 中 实 
现 。 

如 末 没 有 仔细 关注 ， 集 群 可 能 会 增长 得 太 大 ， 以 至 于 无 法 重 局 失效 
节点 ， 束 像 在 一 个 合理 的 时 间 范 围 内 ， 如 果 在 日 常 工 作 中 没有 定期 
做 恢复 演练 ， 备 份 也 会 变 得 太 过 庞大 而 无 法 用 于 恢复 。 我 们 需要 更 
多 的 实践 经 验 来 了 解 它 事实 上 是 如 何 工作 的 。 

由 于 在 事务 提交 时 需要 进行 跨 市 点 通信 ， 写 入 会 更 慢 ， 随 着 集群 中 
增加 的 节点 越 来 越 多 ， 死 锁 和 回 滚 也 会 更 加 频繁 。〈 人 参阅 前 一 章 了 
解 为 什么 会 发 生 这 种 情况 。) 











Percona XtraDB Cluster 和 Galera 都 处 于 其 生命 周期 的 早期 ， 正 在 被 
快速 地 修改 和 改进 。 在 写作 本 书 时 ， 正 在 进行 或 即将 进行 的 改进 包括 群 
体 行 为 、 安 全 性 、 同 步 性 、 内 存 管 理 、 状 态 转移 等 。 未 来 还 可 以 为 离线 
节点 执行 诸如 滚动 式 schema 变 更 的 操作 。 


12.4.3 ”基于 复制 的 见 余 


复制 管理 器 是 使 用 标准 MySQL 复 制 来 创建 元 余 的 工具 Ga3。 尽 管 可 
以 通过 复制 来 改善 可 用 性 ， 但 也 有 一 些 “ 玻 璃 天 花 板 ” 会 阻止 MySQL 当 前 











版 本 的 异步 复制 和 半 同 步 复制 获得 和 真正 的 同步 复制 相同 的 结果 。 复 制 
无 法 保证 实时 的 故障 转移 和 数据 零 丢 失 ， 也 无 法 将 所 有 节 扣 等 同 对 答 。 


复制 管理 器 通常 监控 和 管理 三 件 事 : 应 用 和 MySQL 间 的 通信 、 
MySQL 服 务 器 的 健康 度 ， 以 及 MySQL 服 务 器 间 的 复制 关系 。 它 们 既 可 
以 修改 负载 均衡 的 配置 ， 也 可 以 在 必要 的 时 候 转 移 虚拟 耳 地 址 以 使 应 用 
连接 到 合适 的 服务 器 上 ， 还 能 够 在 一 个 伪 集 群 中 操纵 复制 以 选择 一 个 服 
务 器 作为 写 入 节点 。 大 体 上 操作 并 不 复杂 : 只 需要 确定 写 入 不 会 发 送 到 
一 个 还 没有 准备 好 提供 写 服务 的 服务 器 上 ， 并 保证 当 需 要 提升 一 台 备 库 
为 主 库 时 记录 下 正确 的 复制 坐标 。 











这 上 听 起 来 在 理论 上 是 可 行 的 ， 但 我 们 的 经 验 表明 实际 上 并 不 总 是 能 
有 效 工作 。 事 实 上 这 非常 糟糕 ， 有 些 时 候 最 好 有 一 些 轻 量 级 的 工具 集 来 
帮助 从 常见 的 故障 中 恢复 并 以 很 少 的 开销 获得 较 高 的 可 用 性 。 不 幸 的 
是 ， 在 写作 本 书 时 我 们 还 没有 听 说 任何 一 个 好 的 工具 集 可 以 可 靠 地 完成 
这 一 点 。 稍 后 我 们 会 介绍 两 个 复制 管理 器 4 多， 其 中 一 个 很 新 ， 而 另外 
一 个 则 有 很 多 问题 。 











我 们 发 现 很 多 人 试图 去 写 目 己 的 复制 管理 器 。 他 们 常常 会 陷入 很 多 
人 已 经 遭遇 过 的 陷阱 。 目 己 去 写 一 个 复制 管理 器 并 不 是 好 主意 。 弄 步 组 
件 有 大 量 的 故障 形式 ， 很 多 你 从 未 杀身 经 历 过 ， 其 中 一 些 其 至 无 法 理 
解 ， 并 且 程 序 也 无 法 适当 处 理 ， 因 此 从 这 些 异步 组 件 中 得 到 正确 的 行为 
相当 困难 ， 并 且 可 能 遭遇 数据 丢失 的 危险 。 事 实 上 ， 机 器 刚 开 始 出 现 问 
题 时 ， 由 一 个 经 验 丰富 的 人 来 解决 是 很 快 的 ， 但 如 果 其 他 人 做 了 一 些 错 
误 的 修复 操作 则 可 能 导致 问题 更 严重 。 











我 们 要 提 到 的 第 一 个 复制 管理 器 是 MMM Chttp://mysql- 
mmm.org) ， 本 书 的 作者 对 于 该 工具 集 是 否 适用 于 生产 环境 部 敬 的 意见 











并 不 一 致 〈 尽 管 该 工具 的 原作 者 也 承认 它 并 不 可 靠 ) 。 我 们 中 有 些 人 认 
为 它 在 一 些 人 工 一 故障 转移 模式 下 的 场景 中 比较 有 用 ， 而 有 些 人 甚至 从 
不 使 用 这 个 工具 。 我 们 的 许多 客户 在 自动 一 故障 转移 模式 下 使 用 该 工具 
时 确实 遇 到 了 许多 严重 的 问题 。 它 会 导致 健康 的 服务 器 离线 ， 也 可 能 将 
写 入 友 送 到 错误 的 地 点 ， 并 将 备 库 移动 到 错误 的 坐标 。 有 时 混乱 就 接 唾 
而 至 。 





另外 一 个 比较 新 一 点 的 工具 是 Yoshinori ”Matsunobu 的 MHA 工 具 集 
(http://code.google.com/p/mysql-master-ha/) 。 它 和 MMM 一 样 是 一 组 脚 
本 ， 使 用 相同 的 通用 技术 来 建立 一 个 伪 集 群 ， 但 它 不 是 一 个 完全 的 蔡 换 
者 ; 它 不 会 去 做 太 多 的 事情 ， 并 且 依赖 于 Pacemaker 来 转移 虚拟 卫 地 
址 。 一 个 主要 的 不 同 是 ，MHA 有 一 个 很 好 的 测试 集 ， 可 以 防止 一 些 
MMM 过 到 过 的 问题 。 除 此 之 外 ， 我 们 对 该 工具 集 还 没有 更 多 的 认识 ， 
我 们 只 和 Yoshinori 讨论 过 ， 但 还 没有 真正 使 用 过 。 








基于 复制 的 元 余 最 终 来 说 好 坏 参半 。 只 有 在 可 用 性 的 重要 性 远 比 一 
致 性 或 数据 零 丢 失 保证 更 重要 时 才 推 荐 使 用 。 例 如 ， 一 些 人 并 不 会 真 的 
从 他 们 的 网 站 功能 中 获 利 ， 而 是 从 它 的 可 用 性 中 赚钱 。 谁 会 在 乎 是 否 出 
现 了 故障 导致 一 张 照片 丢失 了 几 条 评论 或 其 他 什么 东西 呢 ? 只 要 广告 收 
益 继 续 滚滚 而 来 ， 可 能 并 不 值得 花 更 多 成 本 去 实现 真正 的 高 可 用 性 。 但 
还 是 可 以 通过 复制 来 建立 “ 尽 可 能 的 ”高 可 用 性 ， 当 遇 到 一 些 很 难处 理 的 
严重 宕 机 时 可 能 会 有 所 帮助 。 这 是 一 个 大 赌注 ， 并 且 可 能 对 大 多 数 人 而 
言 太 过 于 冒险 ， 除 非 是 那些 老成 《或 者 专业 ) WHA. 




















问题 是 许多 用 户 不 知道 如 何 去 证 明 目 己 有 资格 并 评 佑 复制“ 轮 盘 
赌 * 是 否 适 合 他 们 。 这 有 两 个 方面 的 原因 。 第 一 ， 他 们 并 没有 看 到 “玻璃 
天 花 板 ”， 错 误 地 认为 一 组 虚拟 IP 地 址 、 复 制 以 及 管理 脚本 能 够 实现 真 
正 的 高 可 用 性 。 第 三 ， 他 们 低估 了 技术 的 复杂 上 度 ， 因 此 也 低估 了 严重 故 


障 及 生 后 从 中 恢复 的 难度 。 一 些 人 认为 他 们 能 够 使 用 基于 复制 的 元 余 技 
术 ， 但 随后 他 们 可 能 会 更 希望 选择 一 个 有 更 强 保障 的 简单 系统 。 


其 他 一 些 类 型 的 复制 ， 例 如 DRBD 或 者 SAN， 也 有 它们 的 缺点 
请 不 要 认为 我 们 将 这 些 技术 说 得 无 所 不 能 而 把 MySQL 自 身 的 复制 贬 得 
一 团 糟 ， 那 不 是 我 们 的 本 意 。 你 可 以 为 DRBD 写 出 低 质 量 的 故障 转移 肢 
本 ， 这 很 简单 ， 就 像 为 MySQL 复 制 编写 脚本 一 样 。 主 要 的 区 别 是 
MySQL 复 制 非常 复杂 ， 有 很 多 非常 细小 的 差别 ， 并 且 不 会 阻止 你 干 坏 
事 。 














12.5 ”故障 转移 和 故障 恢复 


见 余 是 很 好 的 技术 ， 但 实际 上 只 有 在 过 到 故障 需要 恢复 时 才 会 用 
到 。( 见 人 欣 ， 这 可 以 用 备份 来 实现 ) 。 宛 余 一 点 儿 也 不 会 增加 可 用 性 或 
减少 宕 机 。 在 故障 转移 的 过 程 中 ， 高 可 用 性 是 建立 在 见 余 的 基础 上 。 当 
有 一 个 组 件 失 效 ， 但 存在 元 余 时 ， 可 以 停止 使 用 发 生 故 障 的 组 件 ， 而 使 
用 元 余 备 件 。 元 余 和 故障 转移 结合 可 以 帮助 更 快 地 恢复 ， 如 你 所 知 ， 
MTTR 的 减少 将 降低 宕 机 时 间 并 改善 可 用 性 。 








在 继续 这 个 话题 之 前 ， 我 们 先 来 定义 一 些 术 语 。 我 们 统一 使 用 “ 故 
障 转移 (failover) ”， 有 些 人 使 用 “ 回 退 ”(fallback〉 表达 同一 意思 。 有 
时 候 也 有 人 说 “切换 (switchover) ”以 表明 一 次 计划 中 的 切换 而 不 是 
故障 后 的 应 对 措施 。 我 们 也 会 使 用 “故障 恢复 ”来 表示 故障 转移 的 反面 。 
如 有 果 系 统 拥有 故障 恢复 能 力 ， 故 障 转 移 就 是 一 个 双 同 过 程 ， 当 服务 右 A 
失效 ， 服 务 器 B 代 蔡 它 ， 在 修复 服务 器 A 后 可 以 再 检 换 回来 。 














故障 转移 比 仅 仅 从 故障 中 恢复 更 好 。 也 可 以 针对 一 些 情况 制订 故障 
转移 计划 ， 例 如 升级 、schema 变 更 、 应 用 修改 ， 或 者 定期 维护 ， 当 发 生 
故障 时 可 以 根据 计划 进行 故障 转移 来 减少 宕 机 时 间 《改善 可 用 性 ) 。 





你 需要 确定 故障 转移 到 撒 需 要 多 快 ， 也 要 知道 在 一 次 故障 转移 后 答 
换 一 个 失效 组 件 应 该 多 快 。 在 你 恢复 系统 耗 尽 的 备件 容量 之 前 ， 会 出 现 
元 余 不 足 ， 并 面临 额外 风险 。 因 此 ， 拥 有 一 个 备件 并 不 能 消除 即时 符 换 
失效 组 件 的 需求 。 构 建 一 个 新 的 备用 服务 需 ， 安 装 操 作 系统 ， 并 复制 数 
据 的 最 新 副本 ， 可 以 多 快 呢 ? 有 足够 的 备用 机 器 吗 ? 你 可 能 需要 不 止 一 
台 以 上 。 


故障 转移 的 缘由 各 不 相同 。 我 们 已 经 讨论 了 其 中 的 一 些 ， 因 为 负载 
均衡 和 故障 转移 在 很 多 方面 很 相似 ， 它 们 之 间 的 分 界线 比较 模糊 。 总 的 
来 次 ， 我 们 认为 一 个 完全 的 故 隐 转移 解决 方案 全 少 能 够 监控 并 目 动 葵 换 
组 件 。 它 对 应 用 应 该 是 透明 的 。 负 载 均衡 不 需要 提供 这 些 功 能 。 





在 UNIX 领 域 ， 故 障 转移 常常 使 用 High Availability Linux MH 
Chttp:/linux-ha.org) 提供 的 工具 来 完成 ， 访 项 目 可 在 许多 类 UNIX 系 统 
上 运行 ， 而 不 仅仅 是 Linux。Linux-HA 栈 在 最 近 几 年 明显 多 了 很 多 新 特 
性 。 现 在 大 多 数 人 认为 Pacemaker 是 栈 中 的 一 个 主要 组 件 。Pacemaker 巷 
代 了 老 的 心跳 工具 。 还 有 其 他 一 些 工 具 实 现 了 了 托管 和 负载 均衡 功能 。 
可 以 将 它们 跟 DRBD 和 /或 者 LVS 结 合 起 来 使 用 。 








故障 转移 最 重要 的 部 分 惑 是 故障 恢复 。 如 有 末 服 务 器 间 不 能 自如 切 
换 ， 故 障 转 移 就 是 一 个 死胡同 ， 只 能 是 延 绥 宕 机 时 间 而 已 。 这 也 是 我 们 
倾 回 于 对 称 复制 布局 ， 例 如 双 主 配置 ， 而 不 会 选择 使 用 三 台 或 更 多 的 联 
合 主 库 (co-master) 来 进行 环形 复制 的 原因 。 如 果 配 置 是 对 等 的 ， 故 障 
转移 和 故障 恢复 就 是 在 相反 方 回 上 的 相同 操作 。 值得 一 提 的 是 DRBD 
上 其 有 内 建 的 故障 恢复 功能 。) 











在 一 些 应 用 中 ， 故 障 转移 和 故障 恢复 需要 尽量 快速 并 具备 原子 性 。 
即便 这 不 是 决定 性 的 ， 不 依靠 那些 不 受 你 控制 的 东西 也 依然 是 个 好 主 
意 ， 例 如 DNS 变更 或 者 应 用 程序 配置 文件 。 一 些 问题 直到 系统 变 得 更 加 
庞大 时 才 会 显现 出 来 ， 例 如 当 应 用 程序 强制 重启 以 及 原子 性 需求 出 现 
时 。 





由 于 负载 均衡 和 故障 转移 两 者 联系 较 紧密 ， 有 些 人 硬件 和 软件 是 同时 
为 这 两 个 目的 设计 的 ， 因 此 我 们 建议 所 选择 的 任何 负载 均衡 技术 应 该 都 
提供 故障 转移 功能 。 这 也 是 我 们 建议 避免 使 用 DNS 和 修改 代码 来 做 负载 


PGT ASE. WRAY BR TAER, Wem BLA LEU 
的 工作 : 当 需 要 高 可 用 性 时 ， 不 得 不 重 写 受 影 啊 的 代码 。 








以 下 小 节 讨 论 了 一 些 比较 普 近 的 故障 转移 技术 。 可 以 手动 执行 或 使 
用 工具 来 实现 。 


12.5.1 提升 备 库 或 切换 角色 


提升 一 台 备 库 为 主 库 ， 或 者 在 一 个 主 一 主 复制 结构 中 调换 主动 和 被 
动 角 色 ， 这 些 都 是 许多 MySQL 故 障 转移 策略 很 重要 的 一 部 分 。 具 体 细 
节 参 见 第 10 章 。 正 如 本 章 之 前 提 到 的 ， 我 们 不 能 认定 目 动 化 工具 总 能 在 
所 有 的 情况 下 做 正确 的 事情 一 一 或 者 至 少 以 我 们 的 名 誉 担保 没有 这 样 的 
THA. 














你 不 应 该 假定 在 发 生 故 障 时 能 够 立刻 切换 到 被 动 备 库 ， 这 要 看 具体 
的 工作 负载 。 备 库 会 重 放 主 库 的 写 入 ， 但 如 果 不 用 来 提供 读 操作 ， 就 无 
法 进行 预 热 来 为 生产 环境 负载 提供 服务 。 如 果 和 希望 有 一 个 随时 能 承担 读 
负载 的 备 库 ， 就 要 不 断 地 < 训练 ” 它 ， 既 可 以 将 其 用 于 分 担 工 作 负 载 ， 也 
可 以 将 生产 环境 的 读 得 询 镜像 到 备 库 上 。 我 们 有 时 候 通 过 监听 ITCP 诉 
量 ， 截 取出 其 中 的 SELECT 和 查询， 然后 在 备 库 上 重 放 来 实现 这 个 目的 。 
Percona Toolkit 中 有 一 些 工具 可 以 做 到 这 一 点 。 


12.5.2 ”虚拟 IP 地 址 或 IP 接 管 


可 以 为 需要 提供 特定 服务 的 MySQL 实 例 指定 一 个 逻辑 IP 地 址 。 当 
MySQL 实 例 失 效 时 ， 可 以 将 IP 地 址 转移 到 男 一 台 MySQL 服 务 器 上 。 这 








和 我 们 在 前 一 章 提 到 的 思想 本 质 上 是 相同 的 ， 唯 一 的 不 同 是 现在 是 用 于 
故障 转移 ， 而 不 是 负载 均衡 。 


这 种 方法 的 好 处 是 对 应 用 透明 。 它 会 中 断 已 有 的 连接 ， 但 不 要 求 修 
改 配置 。 有 时 候 还 可 以 原子 地 转移 IP 地 址 ， 保 证 所 有 的 应 用 在 同一 时 间 
看 到 这 一 变更 。 当 服务 器 在 可 用 和 不 可 用 状态 间 “ 摇 摆 ” 时 ， 这 一 点 尤其 


重要 。 


以 下 是 包 的 二 至 不 是 过 处 : 


需要 把 所 有 的 耳 地 址 定义 在 同一 网 段 ， 或 者 使 用 网 络 桥接 。 
改变 IP 地 址 需要 系统 root 权 限 。 

有 时 候 还 需要 更 新 ARP 缓 存 。 有 些 网 络 设 备 可 能 会 把 ARP 信 息 保 存 
太 久 ， 以 致 无 法 即时 将 一 个 耳 地 址 切换 到 另 一 个 MAC 地 址 上 。 我 们 
看 到 过 很 多 网 络 设备 或 其 他 组 件 不 配合 切换 的 例子 ， 结 果 系 统 的 许 
多 部 分 可 能 无 法 确定 IP 地 址 到 底 在 哪里 。 

需要 确定 网 络 人 硬件 支持 快速 PP 接管 。 有 些 人 硬件 需要 元 隆 MAC 地 址 后 
才能 工作 

有 些 服 务 器 即使 完全 丧失 功能 也 会 保持 持 有 卫 地 址 ， 所 以 可 能 需要 
从 物理 上 关闭 或 断 开 网 络 连 接 。 这 就 是 为 人 所 熟知 的 “ 击 中 其 他 节 
点 的 头 部 ”(shoot the other node in the head, f#j#KSTONITH) > © 
还 有 一 个 更 加 微妙 并 且 比 较 官 方 的 名 字 : 击剑 Cfencing) 。 








浮动 IP 地 址 和 IP 接 管 能 够 很 好 地 应 付 彼此 临近 (也 就 是 在 同一 子 网 
内 ) 的 机 器 之 间 的 故障 转移 。 但 是 最 后 需要 提醒 的 是 ， 这 种 全 上 略 并 不 忌 
古 万 无 一 失 ， 还 取决 于 网 络 人 硬件 等 因 系 。 





等 待 更 新 扩散 


经 常 有 这 种 情况 ， 在 某 一 层 定 义 了 一 个 宛 余 后 ， 需 要 等 待 低 层 执 
行 一 些 改 变 。 在 本 章 前 面 的 篇 幅 里 ， 我 们 指出 通过 DNS 修改 服务 器 是 


一 个 很 脆弱 的 解决 方案 ， 因 为 DNS 的 更 新 扩散 速度 很 慢 ， 改 变 1P 地 址 
可 给 予 你 更 多 的 控制 ， 但 在 一 个 LAN 中 的 1P 地 址 同样 依赖 于 更 低层 
一 一 ARP 一 一 来 扩散 更 新 。 





12.5.3 ”中间 件 解雇 方案 


可 以 使 用 代理 、 病 口 转发 、 网 络 地 址 转换 (NAT) 或 者 硬件 负载 均 
衡 来 实现 政 障 转移 和 故障 恢复 。 这 些 痢 是 很 好 的 解决 方案 ， 不 像 其 他 方 
法 可 能 会 引入 一 些 不 确定 性 (所 有 系统 组 件 认 同 哪 一 个 是 主 库 吗 ? 它 能 
够 及 时 并 原子 地 更 改 吗 ? ) ， 它 们 是 控制 应 用 和 服务 器 间 连 接 的 中 枢 。 
但 是 ， 它 们 目 身 也 引入 了 单 点 失效 ， 需 要 准备 抑 余 来 避免 这 个 问题 。 











使 用 这 样 的 解决 方案 ， 你 可 以 将 一 个 远程 数据 中 心 设置 成 看 起 来 好 
像 和 应 用 在 同一 个 网 络 里 。 这 样 就 可 以 使 用 诸如 浮动 PP 地址 这样 的 技术 
让 应 用 和 一 个 完全 不 同 的 数据 中 心 开 始 通 信 。 你 可 以 配置 每 个 数据 中 心 
的 每 人 台 应 用 服务 器 ， 通 过 它 目 己 的 中 间 件 连接 ， 将 流量 路 由 到 活跃 数据 
中 心 的 机 器 上 。 图 12-1 描 述 了 这 种 配置 。 
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图 12-1: 使 用 中 间 件 来 在 各 数据 中 心间 路 由 MySQL 连 接 


如 果 活 跃 数 据 中 心安 装 的 MySQL 彻 底 骨 泌 了 ， 中 间 件 可 以 路 由 流 
量 到 另外 一 个 数据 中 心 的 服务 器 池 中 ， 应 用 无 须知 道 这 个 变化 。 


这 种 配置 方法 的 主要 缺点 是 在 一 个 数据 中 心 的 Apache 服 务 器 和 另外 
一 个 数据 中 心 的 MySQL 服 务 器 之 间 的 延迟 比较 大 。 为 了 缓和 这 个 问 
人 这 样 通信 都 会 被 重 定向 到 放 
置 活 跃 MySQL 服 务 器 的 数据 中 心 。 还 可 以 使 用 HTTP 代 理 来 实现 这 一 目 
标 。 





图 12-1 显 示 了 如 何 使 用 代理 来 连接 MYSQL 服务 器 ， 也 可 以 将 这 个 方 
法 和 许多 别 的 中 间 件 架构 结合 在 一 起 ， 例 如 LVS 和 硬件 负载 均衡 器 。 


12.5.4 ”在 应 用 中 人 处理 故障 转移 


有 时 候 让 应 用 来 处 理 故 障 转移 会 更 简单 或 者 更 加 灵活 。 例 如， 如 宋 
应 用 过 到 一 个 错误 ， 这 个 错误 外 部 观察 者 正常 情况 下 是 无 法 察觉 的 ， 例 
如 关于 数据 库 损坏 的 错误 日 志 信 息 ， 那 么 应 用 可 以 自己 来 处 理 故 障 转 移 
过 程 。 





里 然 把 故障 转移 处 理 过 程 整合 到 应 用 中 看 起 来 比较 吸引 人 ， 但 可 能 
没有 想象 中 那么 有 效 。 大 多 数 应 用 有 许多 组 件 ， 例 如 cron 任 务 、 配 置 文 
件 ， 以 及 用 不 同 语言 编写 的 脚本 。 将 故障 转移 整合 到 应 用 中 可 能 导致 应 
用 变 得 太 过 容 拙 ， 尤 其 是 当 应 用 增 大 并 变 得 更 加 复杂 时 。 











但 是 将 监控 构建 到 应 用 中 是 一 个 好 主意 ， 当 需要 时 ， 能 够 立刻 开始 
故障 转移 过 程 。 应 用 应 该 也 能 够 管理 用 户 体验 ， 例 如 提供 降级 功能 ， 并 
显示 给 用 户 合适 的 信息 。 


12.6 Me 








可 以 通过 减少 宕 机 来 获得 高 可 用 性 ， 这 需要 从 以 下 两 个 方面 来 思 
考 : 增加 两 次 故障 之 间 的 正常 运行 时 间 (MTBF) ， 或 者 减少 从 故障 中 
恢复 的 时 间 (MTTR) 。 








要 增加 两 次 故障 之 间 的 正常 运行 时 间 ， 就 要 尝试 去 防止 故障 发 生 。 
悲剧 的 是 ， 在 预防 故障 发 生 时 ， 它 仍然 会 觉得 你 做 的 不 够 多 ， 所 以 预防 
故障 的 努力 经 常会 被 忽视 掉 。 我 们 已 经 着 重 提 到 了 如 何在 MySQL 系 统 
中 预防 宕 机 ; 具体 的 细节 可 以 参阅 我 们 的 白皮书 ， 从 
http://www.percona.com 上 可 以 获得 。 试 着 从 宕 机 中 获得 经 验 教 训 ， 但 也 
要 体 防 在 故障 根源 分 析 和 事后 检验 时 集中 在 某 一 点 上 而 忽略 其 他 因素 。 











缩短 恢复 时 间 可 能 更 复杂 并 且 代 价 很 咒 。 从 简单 和 容易 的 方面 来 
说 ， 可 以 通过 监控 来 更 快 地 发 现 问题 ， 并 记录 大 量 的 度量 值 以 帮助 诊断 
问题 。 作 为 回报 ， 有 时 候 可 以 在 发 生 宕 机 前 就 发 现 问题 。 监 控 并 有 选择 
地 报警 以 避免 无 用 的 信息 ， 但 也 要 及 时 记录 状态 和 性 能 度量 值 。 





另外 一 个 减少 恢复 时 间 的 策略 是 为 系统 建立 元 余 ， 并 使 系统 具备 故 
障 转 移 能 力 ， 这 样 当 故 障 发 生 时 ， 可 以 在 见 余 组 件 间 进行 切换 。 不 过 的 
是 ， 郊 余 会 让 系统 变 得 相当 复杂 。 现 在 应 用 不 再 是 集中 化 的 ， 而 是 分 布 
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他 各 种 杂乱 的 东西 。 这 也 是 像 NDB Cluster 这样 的 系统 很 难 创建 并 且 很 
难 提供 足够 的 通用 性 来 为 所 有 的 工作 负载 提供 服务 的 原因 。 但 这 种 情况 
正在 改善 ， 也 许 到 本 书 第 四 版 的 时 候 我 们 就 可 以 称赞 一 个 或 多 个 集群 数 
据 库 了 。 





AS Es AL HD TE Be Se Ae A Te BE — eT ve: 复制 、 可 扩展 
性 ， 以 及 高 可 用 性 。 我 们 已 经 尽量 将 它们 独立 开 来 ， 因 为 这 有 助 于 理 清 
这 些 话题 的 不 同 之 处 。 那 么 这 三 昔 有 哪些 关联 之 处 呢 ? 














在 其 应 用 增长 时 ， 人 们 一 般 和 希望 从 他 们 的 数据 库 中 知道 三 件 事 : 


。 他 们 希望 能 够 增加 容量 来 处 理 新 增 的 负载 而 不 会 损失 性 能 。 
。 他 们 希望 保证 不 丢失 已 提交 的 事务 。 
。 他 们 和 希望 应 用 能 一 直 在 线 并 处 理事 务 ， 这 样 他 们 就 能 够 一 直 赚 钱 。 


为 了 达到 这 些 目的 ， 人 们 第 和 首先 增加 元 余 。 结 合 故障 转移 机 制 ， 
通过 最 小 化 MTTR 来 提供 高 可 用 性 。 这 些 兄 余 还 提供 了 空闲 容量 ， 可 以 
为 更 多 的 负载 提供 服务 。 








当然 ， 除 了 必要 的 资源 外 ， 还 必须 要 有 一 份 数据 副本 。 这 有 助 于 在 
损失 服务 器 时 避免 丢失 数据 ， 从 而 增强 持久 性 。 生 成 数据 副本 的 唯一 办 
法 是 通过 菏 种 方法 进行 复制 。 不 六 的 是 ， 数 据 副 本 可 能 会 引入 不 一 致 。 
处 理 这 个 问题 需要 在 节点 间 协 调和 通信 。 这 给 系统 带 来 了 额外 的 负担 ; 
这 也 是 系统 或 多 或 少 存 在 扩展 性 问题 的 原因 。 











数据 副本 还 需要 更 多 的 资源 《例如 更 多 的 硬盘 驱动 器 ， 更 多 的 
RAM) ， 这 会 增加 开销 。 有 一 个 办 法 可 以 减少 资源 消耗 和 维护 一 致 性 
的 开销 ， 束 是 为 数据 分 区 《分 片 ) 并 将 每 个 分 片 分 发 到 特定 的 系统 中 。 
这 可 以 减少 需要 复制 的 重复 数据 的 次 数 ， 并 从 资源 元 余 中 分 离 数据 元 
余 。 





所 以 ， 尽 管 一 件 事 总 会 导致 妨 外 一 件 事 ， 但 我 们 是 在 讨论 一 组 相关 
的 观点 和 实践 来 达成 一 系列 目的 。 他 们 不 仅仅 是 讲述 同一 件 事 的 不 同方 
式 。 











最 后 ， 需 要 选择 一 个 对 你 和 应 用 有 意义 的 策略 。 决 定 选 择 一 个 完 
Him Elim Cend-to-end ) 高 可 用 性 策略 并 不 能 通过 简单 的 经 验 法 则 来 处 
理 ， 但 我 们 给 出 的 一 些 粗略 的 指引 也 许 会 有 所 帮助 。 


为 了 获得 很 短 的 宕 机 时 间 ， 需 要 元 余 服 务 需 能 够 及 时 地 接管 应 用 的 
工作 负载 。 它 们 必须 在 线 并 一 直 执 行 得 询 ， 而 不 仅仅 是 备用 ， 因 此 筷 们 
古 “ 预 热 ” 过 的 ， 处 于 随时 可 用 的 状态 。 





如 果 需 要 很 强 的 可 用 性 保证 ， 束 需要 诸如 MySQL Cluster, Percona 
XtraDB Cluster， 或 者 Clustrix 这 样 的 集群 产品 。 如 果 能 容忍 在 故障 转移 
过 程 中 稍微 慢 一 些 ， 标 准 的 MySQL 复 制 也 是 个 很 好 的 选择 。 要 谨慎 使 
用 自动 化 故障 转移 机 制 ， 如 果 没 有 按照 正确 的 方式 工作 ， 它 们 可 能 会 破 
坏 数 据 。 





如 果 不 是 很 在 意 故障 转 移 花 费 的 时 则 ， 但 希望 避免 数据 丢失 ， 束 需 
要 一 些 强力 保证 数据 的 元 余 一 一 例如 ， 同 步 复 制 。 在 存储 层 ， 这 可 以 通 
过 廉价 的 DRBD 来 实现 ， 或 者 使 用 两 个 昂贵 的 SAN 来 进行 同步 复制 。 也 
可 以 选择 在 数据 库 层 复 制 数据 ， 可 以 使 用 的 技术 包括 MySQL Cluster、 
Percona XtraDB Cluster 或 者 Clustrix。 也 可 以 使 用 一 些 中 间 件 ， 例 如 
Tungsten “Replicator。 如 有 果 不 需 要 强 有 力 的 保护 ， 并 且 和 希望 尽量 保证 简 
单 ， 那 么 正 第 的 异步 复制 或 半 同 步 复制 在 开销 合理 时 可 能 是 很 好 的 选 


择 。 











或 者 也 可 以 将 应 用 放 到 云 中 。 为 什么 不 呢 ? 这 样 难道 不 是 能 够 立刻 
获得 高 可 用 性 和 无 限 扩展 能 力 吗 ? 下 一 草 将 继续 探讨 这 个 问题 。 











(1) 我 们 在 一 个 元 长 的 白皮书 中 完整 地 描述 了 对 客户 的 宕 机 事故 的 分 析 ， 并 于 随后 在 男 一 份 
白皮书 中 介绍 了 如 何 防止 宕 机 ， 包 括 可 以 定期 执行 的 详细 检查 清单 。 本 书 没有 这 么 多 篇 幅 来 摘 
述 所 有 的 细节 ， 你 可 以 从 Percona 的 网 站 (http:/www.percona.com) 获得 这 两 份 白皮书 。 


(2) 这 是 100%% 跨 平台 兼容 的 。 
D ”这 里 推荐 两 篇 反驳 常识 的 文章 : Richard ”Cook 的 论文 “How Complex Systems 







































































Fail” (http:/www. ctlab.org/documents/How%20Complex%20Systems%20Fail.pdf) 和 Malcolm 
Gladwell 在 他 的 What the Dog Saw (Little, Brown) 一 书 中 关于 挑战 者 号 航天 飞机 灾难 事件 的 文 
章 o 








(4) 感觉 太 偏执 了 ? 检查 你 的 见 余 网 络 连接 是 不 是 真 的 连接 到 不 同 的 互联 网 主干 ， 确 保 它 们 
的 物理 位 置 不 在 同一 条 街道 或 者 同一 个 电线 杆 上 ， 这 样 它们 才 不 会 被 同一 个 挖 土 机 或 者 汽车 破 
坏 掉 。 

(5) Percona Server 提 供 了 一 个 新 特性 ， 能 够 把 buffer pool 保 存 下 来 并 在 重启 后 还 原 ， 在 使 用 
共享 存储 时 能 够 很 好 地 工作 。 这 可 以 减少 几 个 小 时 甚至 好 几 天 的 预 热 时 间 。MySQL 5.6 也 有 相 
似 的 特性 。 

(6) MySQL 5.6.8 之 后 ImnoDB 也 增加 了 一 个 只 读 模 式 ， 可 以 只 读 的 方式 用 多 个 实例 访问 一 份 
只 读数 据 文件 。 一 一 译 者 注 

(7) 事实 上 可 以 调整 DRDB 的 同步 级 别 ， 将 其 设置 成 异步 等 待 远程 设备 接收 数据 ， 或 者 在 远 
程 设 备 将 数据 写 入 磁盘 前 一 直 阻 塞 住 。 同 样 ， 强 烈 建议 为 DRBD 专 门 使 用 一 块 网 卡 。 

(8) 这 里 的 意思 应 该 是 innodb_flush_log _at_trx_commit=1 的 情况 。 一 一 译 者 注 

O “ 另 一 方面 ， 大 的 序列 写 入 又 是 另外 一 种 情况 ， 由 DRBD 导 致 的 增加 的 延迟 实际 上 消失 
了 ， 但 吞吐 量 的 限制 依然 存在 。 一 个 合适 的 RAID 阵 列 能 够 提供 200 一 500MB/s 的 序列 写 入 吞 
吐 ， 大 大 超过 于 兆 网 络 所 能 获得 的 吞吐 量 。 

(10) MySQL 5.5 文 持 半 同步 复制 ， 参 见 第 10 章 。 

(11) Galera 技 术 由 Codership Oy (http:/www.codership.com) 开发 ， 可 以 作为 一 个 补丁 在 标 
准 的 MySQL 和 InnoDB 中 使 用 。Percona XtraDB Cluster 除 了 其 他 特性 和 功能 外 ， 还 包含 这 组 补丁 
的 修改 版 本 . Percona XtraDB Cluster 是 一 个 可 以 直接 使 用 的 基于 Galera 的 解决 方案 。 

(12) 你 可 以 通过 配置 主 备 只 写 入 其 中 一 个 节点 来 实现 ， 但 在 集群 配置 中 ， 对 于 这 种 模式 的 
操作 没有 什么 不 同 。 

(13) 在 本 小 节 我 们 会 很 小 心 ， 以 避免 产生 混淆 。 元 余 并 不 等 同 于 高 可 用 性 。 

(14) 我 们 同样 在 开发 基于 Pacemaker 和 Linux-HA 栈 的 解决 方案 ， 但 并 不 准备 在 本 书 中 提 及 。 
这 个 脚注 稍 后 会 自 毁 ，10..……9..……8.……. 




















































































































































































































第 13 草 ”云端 的 MySQL 


许多 人 在 云 中 使 用 MySQL， 有 时 候 规模 还 非常 庞大 ， 这 并 不 奇 
怪 。 从 我 们 的 经 验 来 看 ， 大 多 数 人 使 用 的 是 Amazon Web Services 平 台 
(AWS) : 特别 是 Amazon 的 弹性 计算 云 (Elastic Compute Cloud, 
EC2) ， 弹 性 块 存储 (Elastic Block Store, EBS) ， 以 及 更 小 众 的 关系 
数据 库 服 务 (Relational Database Service, RDS) 。 


为 了 便于 讨论 MySQL 在 云 中 的 应 用 ， 可 以 将 其 粗略 分 为 两 类 。 


laaS (基础 设施 即 服 务 ) 








Iaas 是 用 于 托管 自 有 的 MySQL 服 务 器 的 云端 基础 架构 。 可 以 在 
云端 购买 虚拟 的 服务 器 资源 来 安装 运行 MySQL 实 例 。 也 可 以 根据 
需求 随意 配置 MySQL 和 操作 系统 ， 但 没有 权限 也 无 法 看 到 处 于 底 
层 的 物理 硬件 设备 。 


DBaaS (数据 库 即 服务 ) 


MySQL 本 身 作 为 由 云端 管理 的 资源 。 用 户 需 要 先 收 到 MySQL 
服务 器 的 访问 许可 (通常 是 一 个 连接 串 ) 才能 访问 。 也 可 以 配置 一 
些 MySQL 选 项 ， 但 没有 权限 去 控制 或 查看 底层 的 操作 系统 或 虚拟 
服务 器 实例 。 例 如 Amazon 运 行 MySQL 的 RDS。 其 中 一 些 服 务 器 并 
非 真 的 使 用 MySQL， 但 它们 能 兼容 MySQL 协 议和 得 询 语言 。 








我 们 讨论 的 重点 主要 集中 在 第 一 类 : 云 托管 平台 ， 例 如 AWS、 
Rackspace Cloud 以 及 Joyent 中 。 有 许多 很 好 的 资源 介绍 如 何 部 署 和 管理 


MySQL 及 其 运行 所 需要 的 资源 ， 并 且 也 有 非常 多 的 平台 来 完全 满足 这 
样 的 需求 ， 所 以 我 们 不 会 展示 代码 样 例 或 讨论 具体 的 操作 技术 。 因 此 ， 
本 章 关 注 的 重点 是 ， 在 云端 运行 MySQL 还 是 在 传统 服务 器 上 部 署 
MySQL， 它 们 在 最 终 经 济 上 和 性 能 特性 上 的 关键 区 别 是 什么 。 我 们 假 
定 你 对 云 计 算 很 熟悉 。 这 里 不 是 对 云 计 算 概 念 的 简单 介绍 ， 我 们 的 目的 
只 是 帮助 那些 还 不 熟悉 在 云端 部 署 MySQL 的 用 户 在 使 用 时 避免 一 些 可 
能 遇 到 的 陷阱 。 











一 般 来 说 ，MySQL 能 够 在 云 中 很 好 地 运行 。 在 云 中 运行 MySQL 并 
不 比 在 其 他 平台 困难 ， 但 有 一 些 非常 重要 的 差别 。 你 需要 注意 这 些 差 别 
并 据 此 设计 应 用 和 架构 来 获得 好 的 效果 。 某 些 场景 下 在 云端 托管 
MYSQL 并 不 是 非常 适合 ， 有 时 候 则 很 适合 ， 但 大 多 数 时 候 云 仅仅 是 另 
外 一 个 部 署 平台 而 已 。 











云 是 一 个 部 署 平台 ， 而 不 是 一 种 架构 ， 理 解 这 一 点 很 重要 。 架 构 会 
受 平 台 的 影响 ， 但 平台 和 架构 明显 不 同 。 如 果 你 把 架构 和 平台 搞 混 了 ， 
就 可 能 会 做 出 不 合适 的 选择 而 给 以 后 带 来 抹 烦 。 这 也 正 是 我 们 要 花 时 间 
讨论 云端 的 MySQL 到 底 有 什么 不 同 的 原因 。 


13.1 云 的 优点 、 缺 点 和 相关 误解 


云 计算 有 许多 优点 ， 但 很 少 是 为 MySQL 特 别 设计 。 有 一 些 书籍 已 
经 介绍 了 相关 的 话题 名 ， 这 里 我 们 不 再 费 述 。 不 过 我 们 会 列 出 一 些 比较 
重要 的 条 目 供 参考 ， 因 为 接 下 来 会 讨论 到 云 计算 的 缺点 ， 我 们 不 希望 你 
认为 我 们 是 在 过 分 苛求 云 计算 。 





云 是 一 种 将 基础 设施 外 包 出 去 无 须 目 己 管 理 的 方法 。 你 不 需要 寻找 
供应 商 购买 硬件 ， 也 不 需要 维护 和 供应 商 之 间 的 关系 ， 更 无 须 答 换 
失效 的 硬盘 驱动 器 等 。 

云 一 般 是 按照 即 用 即 付 的 方式 文 付 ， 可 以 把 前 期 的 大 量 资本 文 出 转 
换 为 持续 的 运营 成 本 。 

随 看 供应 丙 发 布 新 的 服务 和 成 本 降低 ， 云 提供 的 价值 越 来 越 大 。 你 
目 己 无 须 做 任何 事情 《例如 升级 服务 器 ) ， 就 可 以 从 这 些 提升 中 获 
ais 随 独 时 间 推 移 你 会 很 容易 地 获得 更 多 更 好 的 选择 并 且 宽 用 更 
低 。 

云 能 够 帮助 你 轻松 地 准备 好 服务 器 和 其 他 资源 ， 在 用 完 后 直接 将 其 
关闭 ， 而 无 须 关 注 怎么 处 理 它们 ， 或 者 怎么 卖 掉 它们 收回 成 本 。 
云 代表 了 对 基础 设施 的 另 一 种 思考 方式 一 一 作为 通过 API 来 定义 和 
控制 的 资源 一 一 文 持 更 多 的 目 动 化 操作 。 从 “私有 云 ? 中 也 可 以 获得 
这 些 好 处 。 











当然 ， 不 是 所 有 跟 云 相关 的 东西 都 是 好 的 。 这 里 有 一 些 缺 点 可 能 会 
构成 挑 成 〈 在 本 章 稍 后 部 分 我 们 会 列 出 MySQL 特 有 的 缺点 ) 。 








。 资源 是 共享 并 且 不 可 预测 的 ， 实 际 上 你 可 以 获得 比 你 文 付 的 更 多 的 


资源 。 这 上 听 起 来 很 不 错 ， 但 却 导 致 容量 规划 很 难 做 。 如 果 你 在 不 知 
情 的 情况 下 获得 了 比 理 应 享受 到 的 更 多 的 计算 资源 ， 那 么 就 存在 这 
样 的 风险 : 别人 也 许 会 索要 他 们 应 得 的 资源 ， 这 会 使 你 的 应 用 性 能 
退化 到 应 有 的 水 平 。 一 般 来 襄 ， 很 难 确切 地 知道 本 来 应 该 得 到 多 少 
(资源 ) ， 大 多 数 云 托管 服务 提供 丙 不 会 对 此 给 出 确切 的 答案 。 
无 法 保证 容量 和 可 用 性 。 你 可 能 以 为 还 可 以 获得 新 实例 ， 但 如 果 供 
应 丙 已 经 超额 销售 了 呢 ? 这 在 有 很 多 共享 资源 的 情况 下 会 发 生 ， 同 
样 也 会 发 生 在 云 中 。 

虚拟 的 共享 资源 导致 排查 故障 更 加 困难 ， 特 别 是 在 无 法 访问 底层 物 
理 人 硬件 的 情况 下 无 法 检查 并 和 弄 清 到 底 发 生 了 什么 。 例 如 ， 我 们 曾经 
看 到 过 一 些 系统 的 iostat 显 示 的 1/O 很 正常 或 者 vmstat 显 示 的 CPU 很 正 
和 常 ， 而 当 实 际 衡量 完成 一 个 任务 需要 的 时 间 时 ， 资 源 却 被 系统 上 的 
其 他 东西 严重 占用 了 。 如 果 在 云 平 台 上 出 现 了 性 能 问题 ， 尤 其 需要 
去 仔细 地 分 析 检 测 。 如 果 对 此 并 不 擅长 ， 可 能 就 无 法 确认 到 底 是 底 
层 系统 性 能 差 ， 还 是 你 做 了 什么 事情 导致 应 用 出 现 不 合理 的 资源 需 
he 




















忆 的 来 说 ， 云 平台 上 对 性 能 、 可 用 性 和 容量 的 透明 性 和 控制 力 都 有 
所 下 降 。 最 后 ， 还 有 一 些 对 云 的 误解 需要 记 住 。 








云天 生 具 备 更 好 的 可 扩展 性 








应 用 、 云 的 架构 ， 以 及 管理 云 服 务 的 组 织 是 不 是 都 是 可 扩展 
的 。 云 并 不 是 天 生 可 扩展 的 ， 云 也 仅仅 是 云 而 已 ， 选 择 一 个 可 扩展 
的 平台 并 不 能 自动 使 应 用 变 得 可 扩展 。 的 确 ， 如 果 云 托管 提供 商 没 
有 超 售 ， 那 么 你 可 以 根据 需求 来 购买 资源 ， 但 在 需要 时 能 够 获得 资 
源 仅 仅 是 扩展 性 的 一 个 方面 而 已 。 











云 可 以 自动 改善 甚至 保证 可 用 时 间 


一 般 来 说 ， 个 别 在 云端 托管 的 服务 器 比 那 些 经 过 良好 设计 的 专 
用 基础 设施 更 容易 发 生 故 障 或 运行 中 断 。 但 是 许多 人 并 没有 意识 到 
这 一 点 。 例 如 ， 有 人 这 样 写 道 : “我 们 将 基础 设施 升级 到 基于 云 构 
建 的 系统 以 保证 100%% 的 可 用 时 间 和 可 扩展 性 *。 而 就 在 这 之 前 AWS 
遭受 了 两 次 大 规模 的 运行 中 断 故 障 ， 导 致 很 大 一 部 分 用 户 受 影响 。 
好 的 架构 能 够 用 不 可 靠 的 组 件 设计 出 可 徘 的 系统 ， 但 通常 更 可 徘 的 
基础 设施 可 以 获得 更 高 的 可 用 性 。《 当 然 不 可 能 有 100% 的 可 用 时 
间 的 系统 。) 








另 一 方面 ， 购 买 云 计算 服务 ， 实 际 上 是 购买 一 个 由 专家 构建 的 
平台 。 他 们 已 经 考虑 了 许多 请 层 的 东西 ， 这 意味 着 你 可 以 更 专注 于 
上 层 工 作 。 如 果 构 建 自己 的 平台 而 对 其 中 的 那些 细 校 末节 并 不 精 
通 ， 就 可 能 犯 一 些 初学 者 的 错误 ， 早 晚会 导致 一 些 宕 机 时 间 。 从 这 
-点 来 说 ， 云 计算 能 够 帮助 改善 可 用 时 间 。 








云 是 唯一 能 提供 [这 里 填 入 任意 的 优点 ] 的 东西 


事实 上 ， 许 多 云 的 优点 是 继承 自 构 建 云 平 台所 用 到 的 技术 ， 即 
使 不 使 用 云 也 可 以 获得 乌 。 例 如 ， 通 过 管理 得 当 的 虚拟 化 和 容量 规 
划 ， 可 以 像 任何 一 个 云 平台 那样 简单 快速 地 启动 (spin up) 一 台新 
的 机 器 。 完 全 没 必 要 专门 使 用 云 来 做 到 这 一 点 。 








云 是 一 个 “ 银 弹 ” (silver bullet) 


虽然 大 部 分 人 会 认为 这 很 范 座 ， 但 确实 有 人 会 这 么 认为 。 实 际 
上 完全 没有 这 回 事 。 


无 可 否认， 云 计算 提供 了 独特 的 优点 ， 随 着 时 间 的 推移 ， 关 于 云 计 
算是 什么 ， 以 及 它们 在 什么 情况 下 会 有 帮助 ， 我 们 会 获得 更 多 的 共识 。 
但 有 一 点 非常 肯定 : 它 是 全 新 的 ， 我 们 现在 所 做 的 任何 预测 都 未 必 经 得 
起 时 间 的 考验 。 我 们 会 在 本 书 讨论 相对 安全 的 部 分 ， 而 将 剩 下 的 部 分 留 


给 读者 讨论 ， 











13.2 MySQL#E w si HY Ze GF WME. 


FE EE st PIC E CPR RAR RREA. URNA 
验 来 看 ， 云 托管 比较 适合 尚 处 于 初级 阶段 的 企业 ， 或 者 那些 持续 接触 新 
概念 并 且 本 质 上 是 以 适用 为 主 的 企业 ， 例 如 移动 应 用 开发 者 或 游戏 开发 
者 。 这 些 技术 的 市 场 随 着 移动 计算 的 扩张 出 现 了 爆炸 式 增长 ， 并 且 仍 然 
是 快速 友 展 的 领域 。 在 许多 情况 下 ， 成 功 的 因素 并 不 为 开发 者 所 控制 ， 
例如 口 口 相传 的 推荐 或 者 恰 着 重要 国际 事件 的 时 机 。 

















我 们 已 经 帮助 很 多 公司 在 云 中 构建 移动 应 用 、 社 交 网 络 以 及 游戏 应 
用 。 其 中 一 个 他 们 大 量 使 用 的 策略 是 尽 可 能 又 快 又 便宜 地 开 友 和 发 布 应 
用 。 如 琳 一 个 应 用 碰巧 变 得 流行 了 ， 公 司 将 投入 资源 扩大 其 规模 ;否则 
就 会 很 快 终结 这 些 应 用 。 一 些 公司 构建 并 发 布 的 应 用 的 生命 周期 甚至 只 
有 几 个 星期 ， 在 这 样 的 环境 下 ， 可 以 毫 不 犹豫 地 选择 云 托管 。 








如 果 是 一 个 小 规模 的 公司 ， 可 能 无 法 提供 足够 的 硬件 来 自 建 数据 中 
心 以 满足 一 个 非常 流行 的 Facebook 应 用 的 发 展 曲线 。 我 们 也 协助 过 一 些 
大 型 的 Facebook 应 用 进行 扩展 ， 它 们 能 够 以 今 人 惊讶 的 速度 增长 一 一 有 
时 甚至 会 快 到 让 一 个 主机 托管 公司 耗 尽 资源 。 更 为 严重 的 是 ， 这 些 应 用 
的 增长 是 完全 无 法 预测 的 ;， 它 们 可 能 只 有 极 少 量 的 用 户 (也 可 能 突然 有 
了 爆炸 性 的 用 户 数 量 增长 〉。 我 们 在 数据 中 心 和 云 中 都 遇 到 过 这 样 的 应 
用 。 如 果 是 一 个 小 公司 ， 云 可 以 帮 你 避免 前 期 快速 注入 大 量 的 资金 来 获 
得 更 快 更 大 规模 的 风险 。 








云 的 男 一 种 潜在 的 大 用 途 是 运行 不 是 很 重要 的 基础 设施 ， 例 如 集成 
环境 、 开 发 测试 平台 ， 以 及 评估 环境 。 假 设 部 蜀 周 期 是 两 个 星期 。 你 会 





每 天 每 个 小 时 都 测 斌 部署 一 次 ， 还 是 只 在 项 目 最 后 的 冲刺 时 测试 ? 许多 
用 户 只 是 偶尔 需要 筹划 和 部 车 测试 环境 。 在 这 种 场景 下 ， 云 可 以 玫 助 节 
约 不 少 钱 。 














以 下 是 我 们 使 用 云 的 两 种 方式 。 第 一 个 是 作为 我 们 对 技术 职员 面试 
的 一 部 分 ， 我 们 会 询问 如 何 解决 一 些 实际 的 问题 。 我 们 使 用 
AMI (Amazon Machine Images) 来 模拟 一 些 被 “破坏 ”的 机 器 ， 然 后 让 求 
只 者 登录 并 在 服务 器 上 执行 一 系列 任务 。 我 们 不 必 开 放 他 们 到 内 部 网 络 
的 授权 ， 这 种 方案 显然 要 方便 得 多 。 男 一 个 是 作为 新 项 目的 工作 平台 和 
开发 服务 器 。 有 一 个 这 样 的 项 目 己 经 在 一 台 云 端 开 发 服务 堪 上 运行 了 数 
个 月 ， 而 花费 不 足 一 美元 ! 这 在 我 们 自己 的 基础 设施 上 是 不 可 能 做 到 
的 。 单 是 发 送 一 封 邮 件 给 系统 管理 员 申 请 开发 服务 器 的 时 间 价 值 残 不 止 
一 美元 。 











但 是 另 一 方面 ， 云 托管 对 于 长 期 项 目 而 言 可 能 会 更 加 昂贵 。 如 果 打 
算 长 远 地 使 用 云 ， 束 需要 花 时 间 来 计算 一 下 〈 它 是 否 划 算 ) 。 除 了 猜想 
未 来 的 创新 能 给 云 计算 和 商用 硬件 带 来 什么 ， 还 需要 做 基准 测试 以 及 一 
个 完整 的 总 体 持 有 成 本 “TCO) 账单 。 为 了 理 清 事情 的 本 质 并 考虑 全 面 
所 有 相关 的 细 市 ， 你 需要 把 所 有 的 事情 最 终归 结 为 一 个 数字 : 每 美元 的 
业务 交易 数 。 事 情 变化 得 太 快 ， 所 以 我 们 将 这 个 留 给 读者 思考 。 











13.3 云 中 的 MySQL 的 可 扩展 性 和 
局 可 用 性 


正如 我 们 之 前 提 到 的 ，MySQL 并 不 会 在 云端 目 动 变 得 更 具 扩 展 
性 。 事 实 上 ， 如 果 机 器 的 性 能 较 差 ， 会 导致 过 早 使 用 横向 扩展 集 略 。 况 
且 云 托管 服务 器 相 比 专用 的 人 硬件 可 徘 性 和 可 预测 性 要 更 差 些 ， 所 以 想 在 
云端 获得 高 可 用 性 需要 更 多 的 创新 。 

















但 是 总 的 来 说 ， 在 云端 中 扩展 MySQL 和 在 其 他 地 方 扩展 没有 太 多 
的 差别 。 最 大 的 不 同 就 是 按 需 提供 服务 器 的 能 力 。 但 是 也 有 有 某 些 限制 会 
导致 扩展 和 高 可 用 实现 起 来 有 点 诬 烦 ， 公 少 在 有 些 云 环境 中 是 这 样 的 。 
例如 ， 在 AWS 云 平台 中 ， 无 法 使 用 类 似 虚 拟 IP 地 址 的 功能 来 完成 快速 原 
子 故障 转移 。 像 这 种 对 资源 的 有 限 控制 意味 着 你 需要 使 用 其 他 办 法 ， 例 
如 代理 。 (ScaleBase 也 值得 去 看 看 。) 


























云 男 外 一 个 迷惑 人 的 地 方 是 梦想 中 的 自动 扩展 一 一 就 是 根据 需求 的 
增加 或 减少 来 局 动 或 关闭 实例 。 尽 管 对 于 诸如 Web 服 务 器 这 样 的 无 状态 
部 分 是 可 行 的 ， 但 对 于 数据 库 服务 器 而 言 则 很 难 做 到 ， 因 为 它 是 有 状态 
的 。 对 于 一 些 特定 的 场景 ， 例 如 以 读 为 主 的 应 用 ， 可 以 通过 增加 备 库 的 
方式 来 获得 有 限 的 自动 扩展 由 ， 但 这 并 不 是 一 个 通用 的 解决 方案 。 实 际 
上 ， 虽 然 许 多 应 用 在 Web 层 使 用 了 目 动 扩 展 ， 但 MySQL 并 不 具备 在 一 个 
无 共 诗 ‘Shared Nothing) 集群 中 的 对 等 角色 服务 器 之 间 迁 移 的 能 
你 可 以 通过 分 片 架构 来 自动 重新 分 片 并 自动 增长 或 收缩 名 ， 但 MySQL 本 
身 是 无 法 目 动 扩展 的 。 














事实 上 ， 央 为 数据 库 通 党 是 一 个 应 用 系统 中 主要 或 唯一 的 有 状态 并 


HRAMA, Ar DATED Ad ARS EA Ze ie RE ST, AA 
数据 库 之 外 的 所 有 部 分 都 可 以 从 云 中 收益 一 Web 服务 器 、 工 作 队 列 服 
务 嚣 、 绥 存 等 一 一 而 MySQL 只 需要 处 理 剩 下 的 东西 。 毕 范 ， 数 据 库 并 

非 世 界 的 中 心 。 如 果 应 用 系统 其 他 部 分 获得 的 好 处 ， 超 过 了 让 MySQL 

运行 得 足够 好 而 投入 的 额外 开销 和 必需 的 工作 量 ， 那 这 不 是 一 个 是 否 会 
发 生 的 问题 ， 而 是 怎么 发 生 的 问题 。 要 回答 这 个 问题 ， 最 好 先 了 解 你 在 
云 中 可 能 磁 到 的 额外 的 挑战 。 这 些 通常 围绕 着 数据 库 服务 器 的 可 用 资 

源 。 








13.4 四 种 基础 资源 


MySQL 需 要 四 种 基础 资源 来 完成 工作 : CPU 周期 、 内 存 、IUO， 以 


及 网 络 。 这 四 种 资源 的 特性 和 重要 程度 在 不 同 的 云 平台 上 各 不 相同 。 可 
以 通过 了 解 它们 的 不 同 之 处 和 对 MySQL 的 影响 ， 以 决定 是 否 选择 在 云 
中 托管 MySQL。 








CPU 通 常 很 少 且慢 。 在 写作 本 书 时 最 大 的 标准 EC2 实 例 提供 8 个 虚 

拟 CPU 核 心 。EC2 提 供 的 虚拟 CPU 比 高 端 CPU 的 速度 明显 要 慢 很 多 
《可 以 查看 本 章 稍 后 的 基准 测试 结果 ) 。 虽 然 可 能 略 有 不 同 ， 但 很 
可 能 在 大 多 数 云 托管 平台 中 这 都 是 一 种 普遍 现象 。EC2 提 供 使 用 多 
个 CPU 资源 的 实例 ， 但 它们 的 最 大 可 用 内 存 却 更 低 。 在 写作 本 书 时 
商用 服务 器 能 提供 几 十 个 CPU 核心 一 一 甚至 更 多 ， 如 果 按 硬件 线程 
FWE. O 

内 存 大 小 受 限 制 。 最 大 的 EC2 实 例 当 前 能 提供 68.4GB 的 内 存 。 与 此 
相 比 ， 商 用 服务 器 能 提供 512GB 一 1TB 的 内 存 。 

IO 的 吞吐 量 、 延 迟 以 及 一 致 性 受到 限制 。 在 AWS 云 中 有 两 个 存储 
选项 。 

第 一 个 选择 是 使 用 EBS 卷 ， 这 有 点 类 似 云 中 的 SAN。AWS 的 最 佳 实 
践 是 在 用 EBS 组 建 的 RAID10 卷 上 建立 服务 器 。 但 是 EBS 是 一 个 共享 
资源 ， 就 像 EC2 服 务 器 和 EBS 服 务 器 之 间 的 网 络 连 接 。 延 迟 可 能 会 
很 高 并 且 不 可 预测 ， 即 使 是 在 适量 的 吞吐 量 需 求 下 也 是 如 此 。 我 们 
已 经 测 得 EBS 设 备 的 IO 延迟 可 以 达到 十 几 分 之 一 秒 。 相 比 之 下 ， 直 
接 插 在 本 机 的 商用 硬盘 驱动 器 只 需 几 个 毫秒 ， 而 闪存 设备 比 硬盘 驱 
动 器 的 速度 又 要 高 出 几 个 数量 级 。 但 另 一 方面 ，EBS 卷 也 有 许多 很 



































好 的 特性 ， 例 如 和 其 他 AWS 服 务 、 快 照 等 结合 起 来 使 用 。 
第 二 个 选择 是 实例 的 本 地 存储 。 每 个 EC2 服 务 器 有 一 定数 量 的 本 地 
存储 ， 实 际 安装 在 底层 服务 器 上 。 它 能 够 比 EBS 提 供 更 多 的 一 至 性 
性 能 中 ， 但 如 果实 例 停止 了 就 无 法 做 到 持久 化 。 正 是 由 于 这 样 的 特 
性 导致 其 不 适合 大 多 数 的 数据 库 服务 器 场景 

尽管 网 络 通常 是 一 个 变化 多 端的 共享 资源 ， 但 是 性 能 通常 比较 好 。 
虽然 使 用 商用 硬件 可 以 获得 更 快 更 持续 的 网 络 性 能 ， 但 CPU、 
RAM 和 1/O 更 容易 成 为 主要 的 性 能 瓶颈 ， 在 AWS 云 中 我 们 还 没有 过 
到 过 网 络 性 能 问题 。 




















正如 你 所 看 到 的 ， 四 种 基础 资源 中 有 三 种 在 AWS 云 中 是 受 限 的 ， 
在 东 些 场景 下 尤其 明显 。 总 的 来 次 ， 这 些 基 础 资源 并 没有 商业 硬件 那样 
的 性 能 。 下 一 节 我 们 会 讨论 这 些 确切 的 结论 。 


13.5 MySQL 在 云 主机 上 的 性 能 


通常 ， 由 于 较 差 的 CPU、 内 存 以 及 WO 性 能 ， 在 类 似 AWS 这 样 的 云 
托管 平台 上 MySQL 所 表现 出 来 的 性 能 并 不 如 在 其 他 地 方 好 。 这 些 情 况 
在 不 同 的 云 平台 之 间 略 有 不 同 ， 但 这 依然 是 普遍 的 事实 岛 。 然 而 对 于 你 
的 需求 而 言 ， 云 主机 可 能 仍然 是 一 个 性 能 足够 高 的 平台 ， 在 某 些 需求 上 
云 平台 可 能 比 另 外 的 解决 方案 要 好 。 


如 果 使 用 更 糟糕 的 硬件 来 运行 MySQL， 无 法 让 MySQL 性 能 比 托管 
在 云 平台 上 更 高 ， 这 并 不 奇怪 。 真 正 让 人 感到 困惑 的 是 在 相似 规格 的 物 
理 硬 件 条 件 下 却 无 法 获得 同样 的 运行 速度 。 例 如 ， 如 果 有 一 台 服 务 器 拥 
有 8 个 CPU 核心 ，16GB 内 存 以 及 一 个 中 等 的 RAID 阵 列 ， 你 可 能 认为 能 
够 获得 和 一 个 拥有 8 个 EC2 计 算 单元 、15GB 内 存 以 及 少量 EBS 卷 的 EC2 
实例 相同 的 性 能 ， 但 这 是 无 法 保证 的 。EC2 实 例 的 性 能 可 能 比 你 的 物理 
硬件 更 加 多 变 ， 特 别 是 它 不 是 一 个 超大 实例 时 ， 可 以 推测 它 跟 其 他 实例 
共享 了 同样 的 硬件 资源 。 





稳定 性 确实 非常 重要 。MySQL 和 InnoDB 尤 其 不 喜欢 不 稳定 的 性 能 
一 一 特别 是 不 稳定 的 IO 性 能 。LIO 操 作 会 请 求 服务 器 内 部 的 互 斥 锁 ， 当 
持续 时 间 太 长 时 ， 就 会 显著 地 导致 很 多 “ 阻 罕 ”进程 堆积 起 来 ， 出 现 令 人 
难以 理解 的 长 时 间 运 行 的 查询 语句 ， 以 及 例如 Threads_running 
或 Threads_connected 这 样 的 状态 变量 产生 毛刺 。 








实际 应 用 中 前 后 不 一 致 或 者 无 法 预测 的 性 能 导致 的 结果 就 是 排队 变 
得 越 来 越 严重 。 排 队 是 响应 时 间 和 到 达 间 隔 时 间 多 变 自 然 会 导致 的 结 
果 ， 并 且 有 个 完整 的 数学 分 文 专门 致力 于 排队 的 研究 。 所 有 的 计算 机 都 





是 队列 系统 的 网 络 ， 当 需要 请 求 的 资源 〈CPU、LIO， 网 络 ， 等 等 ) 繁 
忙 时 ， 请 求 必 须 等 待 。 当 资源 性 能 更 加 多 变 时 ， 请 求 更 容易 堆 登 ， 会 出 
现 更 多 的 排队 现象 。 因 此 ， 在 大 多 数 云 计算 平台 上 很 难 获得 高 并 发 或 者 
稳定 的 低 啊 应 时 间 。 我 们 有 很 多 次 在 EC2 平 台 上 遭受 到 这 个 限制 的 经 

验 。 以 我 们 的 经 验 来 看 ， 即 便 在 最 大 的 实例 上 运行 的 MySQL， 在 典型 
的 Web OLTP 工 作 负载 上 ， 你 能 够 期 待 的 最 高 并 发 度 也 就 
是 Threads_running 值 为 8 一 12。 根 据 经 验 ， 当 超过 这 个 值 时 ， 人 性 能 会 越 
来 越 不 可 接受 。 








注意 我 们 所 说 的 “典型 的 Web OLTP 工 作 负载 ?， 并 非 所 有 的 工作 负 
载 都 以 相同 的 方式 反映 云 平 合 的 限制 。 确 实 有 一 些 工 作 负 载 在 云 中 表现 
得 很 好 ， 而 有 一 些 则 受到 严重 影响 ， 让 我 们 看 看 到 底 有 哪些 。 





。 正如 我 们 刚 讨 论 的 ， 需 要 高 并 发 的 工作 负载 并 不 是 非常 适合 云 计 

算 。 对 于 那些 要 求 非常 快 的 响应 时 间 的 应 用 同样 如 此 。 原 因 可 以 归 
结 于 虚拟 CPU 的 数目 和 速度 方面 的 限制 。 每 个 MySQL 碍 询 运 行 在 

一 个 单独 的 CPU 上 ， 所 以 查询 响应 时 间 实 际 上 是 由 CPU 的 原始 速度 
决定 的 。 如 果 期 望 得 到 更 快 的 响应 时 间 ， 就 需要 更 快 的 CPU。 为 了 
支持 更 高 的 并 发 度 ， 你 需要 更 多 的 CPU。MySQL 和 InnoDB 不 会 因 
为 运行 在 大 量 CPU 核 心 上 而 提供 爆炸 式 的 改进 ， 但 目前 通常 能 在 至 
少 24 个 核心 上 获得 比较 好 的 横向 扩展 ， 这 通常 比 在 云 中 能 够 获得 的 
核心 数 更 多 。 

那些 需要 大 量 IO 的 工作 负载 在 云 中 并 不 总 是 表现 很 好 。 当 IO 很 慢 
并 且 不 稳定 时 ， 工 作 会 很 快 中 断 。 但 另 一 方面 ， 如 果 你 的 工作 负载 
不 需要 太 多 的 IO， 不 管 是 吞吐 量 〈 每 秒 的 执行 量 ) 还 是 带宽 (每 

秒 字 节 数 ) ，MySQL 就 可 以 运行 得 很 好 。 









































之 前 的 几 点 是 根据 云端 的 CPU 和 IO 资源 的 缺点 得 出 的 。 那 么 关于 


这 些 你 可 以 做 点 什么 呢 ? XTF-CPURR HAMAS TRE, AMG BE AMS 
但 是 IO 则 不 同 。IO 实 际 上 有 是 两 种 存储 融 的 交换 : 非 永 久 存储 器 
(RAM) 和 持久 化 存储 器 (磁盘 、EBS， 或 者 其 他 你 所 拥有 的 ) 。 因 此 
MySQL 的 IO 需求 会 受 系统 内 存 大 小 的 影响 。 当 有 足够 的 内 存 时 ， 可 以 
从 缓存 中 读 取 数据 ， 从 而 减少 读 和 写 操作 的 IO。 写 入 同样 可 以 缓存 在 
内 存 里 ， 多 个 对 相同 内 存 比特 位 的 写 入 可 以 合并 成 单个 IO 操作 。 








内 存 的 限制 就 出 现 了 。 当 拥有 足够 的 内 存 来 存放 工作 数据 集 时 乌 ， 
某 些 工作 负载 的 MO 需求 可 以 明显 减少 。 更 大 的 EC2 实 例 也 会 提供 更 好 的 
网 络 性 能 ， 更 有 利于 EBS 卷 的 HO。 但 如 果 工 作 集 太 大 ， 无 法 装 入 可 用 的 
最 大 实例 ， 则 IO 需求 会 逐渐 上 升 ， 并 开始 阻塞 甚至 停止 服务 ， 正 如 我 
们 之 前 讨论 的 那样 。EC2 中 内 存 最 大 的 实例 能 够 很 好 地 为 许多 工作 负载 
提供 足够 的 内 存 。 但 是 你 需要 意识 到 ， 预 热 时 间 可 能 会 很 长 ， 关 于 这 一 
话题 本 节 后 面 会 有 更 多 的 讨论 。 























哪 种 类 型 的 工作 负载 无 法 通过 增加 更 多 的 内 存 来 解决 呢 ? 除了 缓存 
外 ， 一 些 写 入 很 大 的 工作 负载 需要 的 IO 比 你 能 从 多 数 云 计算 平台 上 获 
得 的 要 多 。 例 如 ， 如 果 每 秒 执行 事务 数 很 多 ， 那 么 每 秒 束 需要 执行 更 多 
的 IO 操作 以 保证 持久 性 。 你 只 能 从 诸如 EBS 这 样 的 系统 中 获得 这 么 多 的 
否 吐 量 。 同 样 地 ， 如 果 你 正在 将 大 量 数据 写 入 到 数据 库 中 ， 可 能 会 超过 
可 用 的 市 宽 。 


你 可 能 认为 通过 RAID 来 为 EBS 卷 进行 条 带 (striping) 和 镜像 可 以 
改善 TO 性 能 。 在 某 种 程度 上 确实 有 帮助 。 问 题 是 ， 当 增加 更 多 的 EBS 卷 
时 ， 在 我 们 需要 某 个 EBS 卷 的 任意 时 间 点 都 增加 了 它 性 能 变 差 的 可 能 
性 ， 而 根据 InnoDB 内 部 MO 工作 的 方式 ， 最 差 的 一 环 通常 是 整个 系统 的 
瓶颈 。 实 际 上 ， 我 们 已 经 党 试 过 10 和 20 个 EBS 卷 的 RAID 10 集 合 ， 20 卷 
的 RAID 比 10 卷 的 遭遇 了 更 多 的 停顿 〈stal) 问题 。 当 我 们 测量 底层 块 设 





备 的 IO 性 能 时 ， 很 明显 只 有 一 或 两 个 EBS 卷 表现 得 很 慢 ， 但 是 却 已 经 影 
啊 了 整个 系统 。 


你 也 可 以 改变 应 用 和 服务 器 来 减少 MO 需求 ， 考 虑 周到 的 逻辑 和 物 
理 数 据 库 设计 《Schema 和 索引 ) 对 于 减少 MO 请 求 大 有 帮助 ， 应 用 程序 
优化 和 和 碍 询 优化 也 一 样 。 这 是 减少 MO 最 有 效 的 手段 。 例 如 插入 量 很 大 
的 工作 负载 ， 明 智 地 使 用 分 区 ， 将 MO 集中 到 索引 能 完全 加 载 到 内 存 中 
的 单个 分 区 上 ， 就 会 有 所 帮助 。 你 也 可 以 通过 设 
置 innodb flush_logs_at_trx_commit=2 和 sync _binLog=0 来 降低 持久 
性 ， 或 者 将 mnoDB 事 务 日 志和 二 进 制 日 志 从 EBS 卷 中 转移 到 一 个 本 地 驱 
动 器 上 《尽管 这 有 风险 ) 。 但 是 你 从 服务 器 上 压榨 一 点 额外 的 性 能 越 困 
难 ， 束 越 不 可 避免 地 要 引入 更 大 的 复杂 性 (以 及 它们 的 成 本 〉。 





此 外 还 可 以 升级 MySQL 服 务 器 软件 。 新 版 本 的 MySQL 和 
InnoDB (最 新 的 使 用 InnoDB Plugin 的 MySQL 5.1， 或 者 MySQL 5.5 及 更 
新 的 版 本 〉 能 够 提供 更 好 的 WO 性 能 以 及 更 少 的 内 部 瓶 贷 ， 并 且 相 比 5.1 
及 之 前 的 版 本 遭受 的 停顿 和 堆积 会 少 很 多 。Percona Server 在 某 些 工作 负 
载 下 能 够 提供 更 多 的 好 处 。 例 如 ，Percona Server 的 快速 预 热 缓冲 池 特 性 
在 服务 器 重启 后 能 够 帮助 备用 服务 器 快速 运行 起 来 ， 特 别 是 VO 性 能 不 
是 很 好 并 且 服 务 器 依赖 于 内 存 时 。 这 也 是 我 们 讨论 能 在 云 中 获得 好 的 性 
能 的 候选 场景 ， 这 里 服务 器 比 备 用 硬件 更 容易 发 生 故 障 。Percona Server 
能 够 将 预 热 时 间 从 几 个 小 时 其 至 几 天 减少 到 几 分 钟 。 在 写作 本 书 时 ， 类 
似 的 预 热 特性 在 MySQL 5.6 的 开发 里 程 碑 版 本 里 己 经 可 用 了 。 











尽管 最 终 一 个 增长 的 应 用 总 会 达到 一 个 顶点 ， 届 时 你 不 得 不 对 数据 
库 进 行 拆 分 以 保证 数据 能 够 存放 到 云 中 。 我 们 倾 问 于 尽量 不 拆 分 ， 但 如 
果 你 只 有 这 么 点 马力 ， 当 达到 茶 个 点 时 ， 就 不 得 不 去 其 他 地 方 《离开 这 
个 云 ) ， 或 者 将 其 拆 分 为 多 份 ， 使 每 份 数据 需要 的 资源 不 超过 虚拟 硬件 
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味 着 在 最 大 的 EC2 实 例 上 的 工作 集 大 小 为 50GB 一 60GB。 与 之 相对 ， 我 
们 已 经 有 很 多 在 物理 硬件 上 运行 几 个 TB 大 小 级 别 数据 库 的 经 验 。 在 云 
中 你 需要 更 早 进 行 分 片 。 








13.5.1 在 云端 的 MySQL 基 ; 准 测 试 


我 们 进行 了 一 些 基准 测试 以 说 明 MySQL 在 AWS 云 环境 中 的 性 能 
当 需 要 大 量 WO 时 要 在 云 中 获得 始终 稳定 并 且 可 重 现 的 基准 测试 5 果 几 
乎 是 不 可 能 的 ， 所 以 我 们 选择 一 个 内 存 中 的 工作 负载 ， 本 质 上 可 以 衡量 
除了 IO 外 的 所 有 因素 。 我 们 使 用 Percona Server 5.5.16， 组 冲 池 为 4GB， 
在 一 千 万 行 数据 上 运行 标准 SysBench 只 读 基准 测试 。 这 样 就 可 以 根据 不 
同 的 实例 大 小 进行 比较 。 我 们 忽略 了 高 频率 CPU 实例 ， 因 为 它们 实际 上 
比 m2.4xlarge 实例 的 CPU 性 能 要 差 。 我 们 还 引用 了 一 台 Cisco 服 务 器 作为 
参考 。Cisco 机 器 性 能 非常 高 但 有 点 老化 了 ， 使 用 的 是 两 个 2.93GHz 的 
Xeon X5670 Nehalem CPU。 每 个 CPU 有 6 个 核心 ， 每 个 核心 上 有 两 个 硬 
件 线程 ， 在 操作 系统 来 看 总 共有 24 个 CPU。 图 13-1 显 示 了 测试 的 结果 。 
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根据 工作 负载 和 硬件 来 看 ， 这 样 的 结果 并 不 奇怪 。 例 如 ， 最 大 的 
EC2 实 例 最 高 有 8 个 线程 ， 因 为 它 有 8 个 CPU 核心 。《〈 读 / 写 工 作 负载 会 花 
费 一 些 CPU 之 外 的 时 间 来 做 TO， 所 以 我 们 能 获得 超过 8 个 线程 的 有 效 并 
发 度 ) 。 图 13-1 可 能 会 让 你 认为 Cisco 的 优势 就 是 CPU 能 力 ， 这 也 是 我 们 
原本 认为 的 。 所 以 我 们 使 用 SysBench 的 质数 基准 测试 来 测试 原始 CPU 人 性 
能 。 结 果 如 图 13-2 所 示 。 
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图 13-2: 使 用 SysBench 对 AWS 服 务 器 进行 CPU 质数 基准 测试 


Cisco 服 务 器 每 个 CPU 的 性 能 比 EC2 服 务 器 要 低 ， 奇 怪 么 ?我 们 也 感 
到 非常 奇怪 。 质 数 基 准 测试 本 质 上 是 原始 CPU 指令 ， 因 此 不 应 该 有 非常 
明显 的 虚拟 化 开销 或 者 太 多 的 内 存 交 换 。 对 于 这 样 的 结果 我 们 的 解释 是 
这 样 的 : Cisco 服 务 器 的 CPU 已 经 使 用 了 很 多 年 7 了， 并 且 比 EC2 服 务 器 的 
要 慢 。 但 是 对 于 一 些 更 加 复杂 的 任务 ， 例 如 运行 数据 库 服 务 器 ， EC2 服 
务 器 会 受到 虚拟 化 开销 的 影响 。 区 分 慢 CPU、 慢 内 存 访问 以 及 虚拟 化 开 
销 并 不 总 是 很 容易 ， 但 在 这 个 实例 中 这 种 区 别 看 起 来 很 明显 。 








13.6 MySQL 数据 库 即 服务 
(DBaaSs) 


在 云 问 服务 器 上 安装 MySQL 并 不 是 在 云 中 使 用 MySQL 的 唯一 方 
法 。 己 经 有 越 来 越 多 的 公司 开始 将 数据 库 本 喘 作 为 云 资源 ， 称 之 为 数据 
库 即 服务 (DBaaS， 有 时 候 也 叫 DaaS) ， 这 意味 着 你 可 以 在 一 个 地 方 使 
用 云 中 的 数据 库 ， 而 在 另外 的 地 方 运行 真正 的 服务 。 虽 然 我 们 在 本 草花 
很 多 时 间 解 释 了 IaaSs， 但 IaaS 市 场 正在 快速 商品 化 ， 我 们 期 望 未 来 重点 
会 转 到 DBaaS。 在 写作 本 书 时 已 经 有 以 下 几 个 DBaaS 服 务 提 供 商 。 











13.6.1 Amazon RDS 


我 们 发 现在 Amazon 的 关系 数据 库 RDS) 上 进行 的 开发 比 其 他 任 
何 一 个 DBaaS 提 供 商 都 要 多 很 多 。Amazon RDS PEE 
MySQL 的 服务 ， 它 事实 上 就 是 MySQL， 所 以 能 够 完全 莱 容 你 所 拥有 的 
MySQL 服务 器 (0 并 能 作为 蔡 代 品 提供 服务 。 我 们 不 是 很 确定 ， 但 如 大 
多 数 人 一 样 ， 我 们 相信 RDS 是 托管 在 使 用 EBS 卷 的 EC2 机 器 上 一 一 
Amazon 并 没有 公布 底层 的 技术 ， 但 当 你 足够 了 解 RDS 时 ， 这 看 起 来 很 
明显 就 是 MySQL、EC2 以 及 EBS。 








系统 管理 职责 完全 由 Amazon 来 承担 。 你 没有 访问 EC2 机 器 的 权限 ; 
只 有 登入 MySQL 的 访问 赁 证。 你 可 以 创建 数据 库 、 插 入 数据 等 。 你 并 
没有 被 控制 住 ， 如 果 有 和 需要， 可 以 将 数据 导出 来 转移 到 其 他 地 方 ， 也 可 
以 创建 卷 快 照 并 挂 载 到 其 他 机 器 上 。 


为 了 防止 你 检查 或 干涉 Amazon 对 服务 器 或 主机 实例 的 管理 ，RDS 
做 了 一 些 限 制 。 例 如 一 些 权限 限制 。 你 不 能 利用 SELECT INTO 
OUTFILE. FILE). LOAD DATA INFILE 或 其 他 方法 来 通过 MySQL 访 
问 服 务 器 的 文件 系统 。 你 不 能 做 任何 和 复制 相关 的 事情 ， 也 不 能 为 自己 
赋予 更 高 的 权限 。Amazon 通 过 诸如 在 系统 表 上 设置 触发 器 等 方法 来 进 
行 阻止 。 并 且 作 为 服务 条 款 的 一 部 分 ， 你 要 同意 不 会 试图 绕 过 这 些 限 
制 。 








安装 的 MySQL 版 本 做 了 轻微 的 修改 以 阻止 用 户 干涉 服务 器 ， 其 他 
部 分 看 起 来 和 原版 MySQL 一 样 。 我 们 对 RDS、EBS 和 EC2 做 了 基准 测 
试 ， 并 没有 从 该 平台 上 发 现 超 出 我 们 预期 的 变化 。 也 就 是 说 ， 看 起 来 
Amazon 并 没有 对 服务 器 做 任何 性 能 增强 。 


RDS 可 以 提供 一 些 比较 吸引 人 的 好 处 ， 这 取决 于 你 的 具体 情况 。 


你 可 以 将 系统 管理 甚至 许多 数据 库 管理 的 工作 留 给 Amazon。 例 

如 ， 他 们 会 为 你 进行 复制 并 保证 你 不 会 把 事情 搞 砸 。 

RDS 相 比 其 他 选择 而 言 可 能 更 便宜 ， 这 取决 于 你 的 成 本 结构 和 人 力 
RDS 中 的 限制 也 许 是 件 好 事 : Amazon 拿 走 了 那 把 子弹 上 膛 的 枪 ， 
防止 你 用 它 上 自残 。 








但 是 ， 它 也 有 一 些 潜 在 的 缺点 。 
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例如 ， 你 无 法 衡量 MO 响应 时 间 和 CPU 利用 率 。Amazon 通 过 另 一 个 
服务 CloudWatch 提 供 了 这 一 功能 。 它 给 出 了 足够 的 指标 用 于 排查 许 
多 性 能 问题 ， 但 有 时 候 你 需要 原始 数据 以 知道 到 撒 发 生 了 什么 。 





《也 无 法 使 用 类 似 FILE 0 这 样 的 函数 来 访问 /proc/diskstats. ) 
。 无 法 获得 完整 的 慢 查 询 日 志文 件 。 你 可 以 指定 MySQL 将 慢 查 询 记 
录 到 一 个 CSV 日 志 表 中 ， 但 这 并 不 是 很 好 。 它 会 消耗 很 多 服务 器 资 
源 ， 并 且 不 会 给 出 精确 的 查询 啊 应 时 间 。 这 使 得 很 难 去 分 析 和 排除 
SQL 故障 。 
如 果 你 希望 得 到 最 新 最 好 的 ， 或 者 一 些 性 能 上 的 增强 ， 例 如 那些 你 
可 以 从 Percona Server 上 获得 的 提升 ， 那 就 不 走运 了 ，RDS 并 不 提供 
你 必须 依赖 Amazon 的 支持 团队 来 解决 一 些 问题 ， 而 这 些 问题 可 能 
本 来 是 你 自己 可 以 解决 的 。 例 如 ， 假 设 查 询 挂 起 了 ， 或 者 服务 器 由 
于 数据 损坏 有 崩 尝 了 。 你 既 可 以 等 待 Amazon 来 解决 ， 也 可 以 自己 解 
决 。 如 果 是 后 者 你 就 需要 把 数据 转移 a 到 别 的 地 方 。 你 无 法 通过 访问 
实例 本 号 来 解决 。 如 果 想 这 么 做 ， 你 不 得 不 额外 花 一 些 时 间 并 支付 
额外 的 资源 。 这 不 只 是 理论 上 的 推测 ; 我们 已 经 接 到 过 许多 技术 文 
持 请 求 ， 这 些 请 求 通 党 需要 系统 权限 以 进行 故障 排 合 ， 因 此 对 于 
RDS 用 户 而 言 是 无 法 真正 解决 的 。 


























正如 我 们 所 说 ， 在 性 能 方面 ，RDS 跟 一 个 大 型 大 内 存 的 使 用 EBS 存 
储 和 原始 MySQL 的 EC2 实 例 相 似 。 如 果 直 接 使 用 EC2 和 EBS 并 安装 一 个 
高 性 能 版 本 的 MySQL (例如 Percona Server) ， 你 可 以 从 AWS 云 中 压榨 
出 一 点 更 高 的 性 能 ， 但 这 不 会 是 一 个 数量 级 上 的 区 别 。 考 虑 到 这 一 点 ， 
有 理由 根据 你 的 商业 需求 而 非 性 能 需求 来 决定 是 否 使 用 RDS。 如 采 确 实 
非常 要 求 高 性 能 ， 那 你 根本 就 不 应 该 使 用 AWS 云 。 





13.6.2 ”其 他 DBaaS 解 决 方案 


Amazon RDS 并 不 是 MySQL 用 户 唯 一 可 选 的 DBaaS 解 决 方案 。 还 有 
诸如 FathomDB (http://fathomdb.com) 以 及 
Xeround (http:/xeround.com) “FARA. BRF A A WN Ze 
来 介绍 它们 ， 因 为 我 们 还 没有 在 这 些 服务 上 做 任何 的 生产 部 署 。 从 关于 
FathomDB 的 一 些 有 限 的 公开 信息 来 看 ， 它 和 Amazon RSA ARV, E 
然 它 也 和 AWS 云 一 样 可 以 在 Rackspace 云 上 获得 。 在 写作 本 书 时 它 还 处 
于 内 部 测试 阶段 。 





3 


Xeround 则 有 很 大 的 不 同 之 处 ， 它 是 一 个 分 布 式 服务 器 集群 ， 前 ; 
是 一 个 包含 特定 存储 引擎 的 MySQL。 它 似乎 和 原始 版 本 MySQL 有 少量 
的 不 兼容 或 不 同 之 处 。 但 它 只 是 最 近 才 发 布 正式 GA 版 本 〈GA， 
generally available) ， 所 以 现在 下 定论 为 时 尚 旱 。 存 储 引 擎 似乎 是 用 于 
和 后 台 集 群 系统 通信 ， 这 看 起 来 有 点 和 NDB CLuster 类 似 。 它 增加 了 上 自 
动 重 分 布 功能 ， 可 以 在 工作 负载 增加 或 减少 时 自动 地 增加 和 去 除 节 点 
(动态 扩展 ) 。 











还 有 许多 其 他 的 DBaaS 服 务 ， 新 的 服务 也 在 不 断 地 推出 。 我 们 这 里 
所 写 的 任何 内 容 都 可 能 在 你 阅读 时 已 经 过 时 了 ， 所 以 我 们 将 其 留 给 你 自 
己 来 研究 。 





13.7 ”总结 





在 云端 使 用 MySQL 至 少 有 两 种 主流 的 方法 : 在 云 服 务 器 上 安装 
MySQL， 或 者 使 用 DBaaS 服 务 。MySQL 能 够 在 云 主 机 上 运行 得 很 好 ， 
但 云 环 境 中 的 限制 第 常会 导致 更 早 需 要 进行 数据 拆 分 。 并 且 尺 管 云 服务 
器 看 起 来 和 你 的 物理 硬件 很 相似 ， 但 可 能 性 能 和 服务 质量 要 更 低 。 











有 时 候 似 乎 有 人 会 说 “ 云 就 是 答案 ， 有 什么 问题 吗 ? ”这 是 一 个 极 
端 ， 但 那些 认为 云 是 一 个 银 弹 的 狂热 信众 ， 也 有 类 似 的 问题 。 数 据 库 所 
需要 的 四 种 基础 资源 中 的 三 种 CPU、 内存 和 磁盘 〉 在 云 中 明显 更 差 并 
且 / 或 者 效率 更 低 ， 会 直接 影响 到 MySQL 的 性 能 。 








但 是 对 于 很 多 工作 负载 而 言 ，MySQL 能 够 在 云 中 运行 得 很 好 。 通 
党 来 说 ， 如 果 能 将 工作 集 加 载 到 内 存 中 ， 并 且 产生 的 写 入 负载 不 超过 云 
能 文 撑 的 IO 量 ， 那 么 就 可 以 获得 很 好 的 效果 。 通 过 严谨 的 设计 和 架 
构 ， 选 择 正 确 的 MySQL 版 本 并 做 合适 的 配置 ， 可 以 使 你 的 数据 库 工 作 
负载 和 容量 能 适应 云 的 长 处 。 但 是 MySQL 并 不 是 天 生 的 云 数 据 库 ; 也 
就 是 说 ， 它 无 法 完全 使 用 云 计算 理论 上 能 提供 的 优点 ， 例 如 自动 扩展 。 
但 是 一 些 可 蔡 代 的 技术 〈 例 如 Xeround) 正在 尝试 解决 这 些 缺 点 。 








我 们 已 经 讨论 了 很 多 跟 云 相关 的 缺点 ， 这 也 许 会 给 你 一 个 我 们 反对 
云 计 算 的 印象 。 并 非 如 此 。 这 只 是 因为 我 们 只 集中 在 MySQL 上 ， 而 不 
是 讨论 云 计 算 所 有 的 优点 ， 这 可 能 跟 你 从 其 他 地 方 阅读 到 的 非常 不 一 
样 。 我 们 在 试 着 指出 在 云端 运行 MySQL 有 哪些 不 同 ， 以 及 哪些 是 你 需 
要 知道 的 。 





我 们 看 到 在 云 中 最 大 的 成 功 是 由 于 商业 原因 做 出 的 决策 。 即 使 长 期 
来 看 每 个 商业 交易 的 开销 在 云 中 会 更 蜗 ， 但 其 他 方面 的 因 系 ， 诸 如 增加 
了 了 弹性、 减少 了 前 期 成 本 、 减 少 了 推 癌 市 场 的 时 间 ， 以 及 降低 了 风险 ， 
这 可 能 更 重要 。 并 且 你 的 应 用 中 其 他 和 MySQL 无 关 的 部 分 所 获得 的 好 
处 要 远 远 大 于 《在 云端 ) 使 用 MySQL 带 来 的 浆 问 。 











(1) OK， 我 们 承认 。Amazon 网 络 服务 是 一 个 云 。 本 章 主 要 讨论 AWS。 

(2) 参阅 George Reese 所 写 的 Cloud Application Architectures (O'Reilly) 。 

(3) 我 们 不 是 说 这 会 更 加 容易 或 便宜 ， 我 们 只 是 说 云 并 不 是 能 获得 这 些 好 处 的 唯一 途径 。 

(4) Scalr (http:Vscalr.neb 是 一 个 流行 的 开源 服务 ， 用 于 在 云 中 进行 MYSQL 复制 自动 扩展 。 

(5) 计算 机 科学 家 喜欢 将 之 称 为 "重大 挑战 ”(non-trivial challenge) 。 

(6) 在 CPU、RAM 以 及 MO 上 ， 商 用 硬件 能 够 提供 超过 MySQL 可 以 有 效 利 用 的 硬件 能 力 ， 所 
以 将 云 与 云 之 外 可 获得 的 最 强硬 件 相 比 较 并 不 是 完全 公平 的 。 

(7) 直到 写 入 的 时 候 本 地 存储 才 会 被 分 配给 实例 ， 导 致 每 个 写 入 的 块 发 生 “ 第 一 次 写 处 
fi” Cfirst-write penalty) 。 避 免 这 个 问题 的 办 法 是 使 用 dd 去 写 满 设备 。 

(8) ”如 果 你 相信 http:/www.xkcd.com/908/， 那 么 显然 所 有 的 云 都 有 同样 的 缺点 ， 我 们 刚刚 已 
经 提 过 。 

(9) 参阅 第 9 章 关 于 工作 集 的 定义 及 其 如 何 影响 VO 需 求 的 讨论 。 

(10) 除非 你 使 用 别 的 存储 引擎 或 者 其 他 一 些 非 标准 的 MySQL 修 改版 本 。 

























































































第 14 章 ”应 用 层 优化 


如 宁 在 提高 MySQL 的 性 能 上 花费 太 多 时 间 ， 容 易 使 视野 局 限于 
MySQL 本 号， 而 忽略 了 用 户 体验 。 回 过 头 来 看 ， 也 许可 以 意识 到 ， 或 
许 MyYSQL 已 经 足够 优化 ， 对 于 用 户 看 到 的 啊 应 时 间 而 言 ， 其 所 所 的 比 
重 已 经 非常 之 小 ， 此 时 应 该 关注 下 其 他 部 分 了 。 这 古 个 很 不 错 的 观点 ， 
尤其 是 对 DBA 而 言 ， 这 是 很 值得 去 做 的 正确 的 事 。 但 如 果 不 是 
MySQL， 那 又 是 什么 导致 了 问题 呢 ? 使 用 第 3 章 提 到 的 技术 ， 通 过 测量 
可 以 快速 而 准确 地 给 出 答案 。 如 果 能 顺 着 应 用 的 馆 辑 过 程 从 头 到 尾 来 齐 
析 ， 那 么 找到 问题 的 源头 一 般 来 说 并 不 困难 。 有 时， 尽管 问题 在 
MySQL 上 ， 也 很 容易 在 系统 的 另 一 部 分 得 到 解决 。 

















无 论 问 题 出 在 哪里 ， 都 至 少 可 以 找到 一 个 徘 谱 的 工具 来 帮助 进行 分 
析 ， 而 且 通 常 是 免费 的 。 例 如 ， 如 果 有 JavaScript 或 者 页 面 演 染 的 问题 ， 
可 以 使 用 包括 Firefox 浏 览 器 的 Firebug 插 件 在 内 的 调 优 工具 ， 或 者 使 用 
Yahoo! 的 YSlow 工 具 。 我 们 在 第 3 草 提 到 了 几 个 应 用 层 工具 。 一 些 工 具 
甚至 可 以 剖析 整个 堆栈 : New Relic 是 一 个 很 好 的 例子 ， 它 可 以 放 析 Web 
应 用 的 前 端 、 应 用 以 及 后 端 。 


141 常见 问题 


我 们 在 应 用 中 反复 看 到 一 些 相同 的 问题 ， 经 常 是 因为 人 们 使 用 了 缺 


乏 设 计 的 现成 系统 或 者 简单 开发 的 流行 框架 。 虽 然 有 时 候 可 以 通过 这 些 


框架 


作 ， 


维 。 


更 快 更 简单 地 构建 系统 ， 但 是 如 末 不 清楚 这 些 框架 背后 做 了 什么 操 
反而 会 增加 系统 的 风险 。 





下 面 是 我 们 经 常会 碰 到 的 问题 清单 ， 通 过 这 些 过 程 可 以 激发 你 的 思 


什么 东西 在 消耗 系统 中 每 台 主 机 的 CPU、 和 磁盘 、 网 络 ， 以 及 内 存 资 
Va? 这 些 值 是 否 合理 ? 如果 不 合理 ， 对 应 用 程序 做 基本 的 检查 ， 看 
什么 占用 了 资源 。 配 置 文件 通常 是 解决 问题 最 简单 的 方式 。 例 如 ， 

如 果 Apache 因 为 创建 1000 个 需要 50MB 内 存 的 工作 进程 而 导致 内 存 
溢出 ， 就 可 以 配置 应 用 程序 少 使 用 一 些 Apache 工 作 进程 。 也 可 以 配 
置 每 个 进程 少 使 用 一 些 内 存 。 

应 用 真 的 需要 所 有 获取 到 的 数据 吗 ? 获取 1000 行 数据 但 只 显示 10 

行 ， 而 丢弃 剩 下 的 990 行 ， 这 是 常见 的 错误 。《 如 果 应 用 程序 缓存 
了 另外 的 990 行 备用 ， 这 也 许 是 有 意 的 优化 。) 

应 用 在 处 理 本 应 由 数据 库 处 理 的 事情 吗 ， 或 者 反 过 来 ? 这 里 有 两 个 
例子 ， 从 表 中 获取 所 有 的 行 在 应 用 中 进行 统计 计数 ， 或 者 在 数据 库 
中 执行 复杂 的 字符 串 操作 。 数 据 库 擅 长 统计 计数 ， 而 应 用 擅长 正则 
表达 式 。 要 善于 使 用 正确 的 工具 来 完成 任务 。 

应 用 执行 了 太 多 的 查询 ? ORM 宣 称 的 把 程序 员 从 写 SQL 中 解放 出 来 
的 语句 接口 通常 是 罪魁 祸首 。 数 据 库 服 务 器 为 从 多 个 表 匹 配 数据 做 
了 很 多 优化 ， 因 此 应 用 程序 完全 可 以 删 掉 多 余 的 拒 套 循环 ， 而 使 用 














数据 库 的 关联 来 代 蔡 。 

应 用 执行 的 查询 太 少 了 ? 好 吧 ， 上 面具 说 了 执行 太 多 SQL 可 能 成 为 
问题 。 但 是 ， 有 时 候 让 应 用 来 做 “手工 关联 ?以 及 类 似 的 操作 也 可 能 
是 个 好 主意 。 因 为 它们 允许 更 细 的 粒度 控制 和 更 有 效 的 使 用 缓存 ， 
以 及 更 少 的 锁 争 用 ， 甚 至 有 时 应 用 代码 里 模拟 的 哈 希 关联 会 更 快 
(MySQL 的 衣 套 循环 的 关联 方法 并 不 总 是 高 效 的 ) 。 

应 用 创建 了 没 必要 的 MySQL 连 接 吗 ? 如 果 可 以 从 缓存 中 获得 数 
据 ， 就 不 要 再 连接 数据 库 。 

应 用 对 一 个 MySQL 实 例 创 建 连接 的 次 数 太 多 了 吗 〈 也 许 因 为 应 用 
的 不 同 部 分 打开 了 它们 自己 的 连接 ) ? 通常 来 说 更 好 的 办 法 是 重用 
相同 的 连接 。 

应 用 做 了 太 多 的 “垃圾 ”查询 ?一 个 常见 的 例子 是 发 送 查 询 前 先 发 送 
一 个 ping 命 令 看 数据 库 是 否 存活 ， 或 者 每 次 执行 SQL 前 选择 需要 的 
数据 库 。 总 是 连接 到 一 个 特定 的 数据 库 并 使 用 完整 的 表 名 也 许 是 更 
好 的 方法 。〔( 这 也 使 得 从 日 志 或 者 通过 SHOW PROCESSLIST 看 SQL 更 
容易 了 ， 因 为 执行 日 志 中 的 SQL 语句 的 时 候 不 用 再 切换 到 特定 的 数 
据 库 ， 数 据 库 名 已 经 包含 在 SQL 语句 中 了 。 )“ 预 备 

(Preparing) ”连接 是 男 一 个 常见 问题 。Java 驱 动 在 预备 期 间 会 做 大 
量 的 操作 ， 其 中 大 部 分 可 以 禁用 。 另 一 个 常见 的 垃圾 查询 是 SET 
NAMES ”UTF8， 这 是 一 个 错误 的 方法 〔( 它 不 会 改变 客户 端 库 的 字符 
集 ， 只 会 影响 服务 器 的 设置 ) 。 如 果 应 用 在 大 部 分 情况 使 用 特定 的 
字符 集 工作 ， 可 以 修改 配置 文件 把 特定 字符 集 设 为 默认 值 ， 而 不 需 
要 在 每 次 执行 时 去 做 修改 。 

应 用 使 用 了 连接 池 吗 ?这 既 可 能 是 好 事 ， 也 可 能 是 坏事 。 连 接 池 可 
以 帮助 限制 总 的 连接 数 ， 有 大 量 SQL 执 行 的 时 候 效果 不 错 (Ajax 应 
用 是 一 个 典型 的 例子 ) 。 然 而 ， 连 接 池 也 可 能 有 一 些 副作用 ， 比 如 
说 应 用 的 事务 、 临 时 表 、 连 接 相 关 的 配置 项 ， 以 及 用 户 自 定义 变量 




















之 间 相 互 干扰 等 。 

应 用 是 否 使 用 长 连接 ? 这 可 能 导致 大 多 连接 。 通 第 来 说 长 连接 不 是 
个 好 主意 ， 除 非 网 络 环境 很 慢 导 致 创建 连接 的 开销 很 大 ， 或 者 连接 
只 被 一 或 两 个 很 快 的 SQL 使 用 ， 或 者 连接 频率 很 高 导致 客户 端 本 地 
端口 不 够 用 。 如 果 MySQL 的 配置 正确 ， 也 许 束 不 需要 长 连接 了 。 

比如 使 用 skip-name-resolve 来 避免 DNS 反 向 查询 ， 确 保 

thread cache 足够 大 ， 并 且 增 加 back log。 可 以 参考 第 8 章 和 第 9 章 
得 到 更 多 的 细节 。 

应 用 是 否 在 不 使 用 的 时 候 还 保持 连接 打开 ? 如果 是 这 样 ， 尤 其 是 连 
接 到 很 多 服务 器 时 ， 可 能 会 过 多 地 消耗 其 他 进程 所 需要 的 连接 。 例 
如 ， 假 设 你 连接 到 10 个 MYSQL 服务 器 。 从 一 个 Apache 进 程 中 获取 
10 个 连接 不 是 问题 ， 但 是 任意 时 刻 其 中 只 有 1 个 在 真正 工作 。 其 他 9 
个 大 部 分 时 间 都 处 于 Sleep 状态 。 如 果 其 中 一 人 台 服 务 器 变 慢 了 ， 或 
者 有 一 个 很 长 的 网 络 请 求 ， 其 他 的 服务 器 就 可 能 因为 连接 数 过 多 受 
到 影响 。 解 决 方案 是 控制 应 用 怎么 使 用 连接 。 例 如 ， 可 以 将 操作 批 
量 地 依次 发 送 到 每 个 MySQL 实 例 ， 并 且 在 下 一 次 执行 SQL 前 关闭 每 
个 连接 。 如 果 执 行 的 是 比较 消耗 时 间 的 操作 ， 例 如 调用 Web 服 务 接 
口 ， 甚 至 可 以 先 关 闭 MySQL 连 接 ， 执 行 耗 时 的 工作 ， 再 重新 打开 
MySQL 连 接 继续 在 数据 库 上 工作 。 

















长 连接 和 连接 池 的 区 别 可 能 使 人 困惑 。 长 连接 可 能 跟 连 接 池 有 同样 
的 副作用 ， 因 为 重用 的 连接 在 这 两 种 情况 下 都 是 有 状态 的 。 


然而 ， 连 接 池 通常 不 会 寻 致 服务 器 连接 过 多 ， 因 为 它们 会 在 进程 间 
排队 和 共 人 至 连接 。 男 一 方 和 面 ， 长 连接 是 在 每 个 进程 基础 上 创建 ， 不 会 在 
进程 间 共 至 。 


LE 
LE 








连接 池 也 比 共享 连接 的 方式 对 连接 策略 有 更 强 的 控制 力 。 连 接 池 可 


DEC AB SI Re, (ei SAE, SIRs hW 
时 ， 应 该 将 连接 请 求 进行 排队 而 不 是 扩展 连接 池 。 这 样 做 可 以 在 应 用 服 
务 器 上 进行 排队 等 每 ， 而 不 是 将 压力 传递 到 MySQL 数 据 库 服务 器 上 导 
致 连接 数 太 多 而 过 载 。 

有 很 多 方法 可 以 使 得 奋 询 和 连接 更 快 ， 但 是 一 般 的 规则 是 ， FRAG 
够 直接 避免 进行 查询 和 连接 ， 肯 定 比 努 力 提 升 查 询 和 连接 的 性 能 能 获得 
更 好 的 优化 结 


14.2 ”Web 服务 器 问题 





Apache 是 最 流行 的 Web 应 用 服务 器 软件 。 它 在 许多 情况 下 都 运行 民 
好 ， 但 如 果 使 用 不 当 也 会 消耗 大 量 的 资源 。 最 常见 的 问题 是 保持 它 的 进 
程 的 存活 〈alive) 时 间 过 长 ， 或 者 在 各 种 不 同 的 用 途 下 混合 使 用 ， 而 不 
是 分 别 对 不 同类 型 的 工作 进行 优化 。 





Apache 通 党 是 通过 prefork 配 置 来 使 用 mod_php、mod_per1 和 
mod_python 模 块 的 。prefork 模 式 会 为 每 个 请 求 预 分 配 进程 。 因 为 PHP、 
Perl 和 Python 脚本 是 可 以 定制 化 的 ， 每 个 进程 使 用 50MB 或 100MB 内 存 的 
情况 并 不 少见 。 当 一 个 请 求 完成 后 ， 会 释放 大 部 分 内 存 给 操作 系统 ， 但 
并 不 是 全 部 。Apache 会 保持 进程 处 于 打开 状态 以 备 后 来 的 请 求 重用 。 这 
意味 着 ， 如 果 下 一 个 请 求 是 请 求 静态 文件 ， 比 如 一 个 CSS 文 件 或 者 一 张 
图 片 ， 就 会 出 现 用 一 个 占用 内 存 很 多 的 进程 来 为 一 个 很 小 的 请 求 服务 的 
情况 。 这 就 是 使 用 Apache 作 为 通用 Web 服 务 器 很 危险 的 原因 。 它 的 确 是 
为 通用 目的 而 设计 的 ， 但 如 果 能 够 有 针对 性 地 使 用 其 长 处 ， 会 获得 更 好 
的 性 能 。 














另 一 个 主要 的 问题 是 ， 如 有 果 开 局 了 Keep-Alive 设 置 ， 进 程 可 能 很 长 
时 间 处 于 繁忙 状态 。 当 然 ， 即 使 没有 开局 Keep-Alive， 茶 些 进 程 也 可 能 
存活 很 久 , “ 填 鸭 式 ” 地 将 内 容 传 给 客户 端 可 能 导致 获取 数据 很 慢 中 。 


人 们 第 犯 的 妃 外 一 个 错误 ， 惑 是 保持 那些 Apache 默 认 开 局 的 模块 不 
动 。 


最 好 能 够 精简 Apache 的 模块 ， 移 除 挥 那些 不 需要 的 。 这 很 简单 : 只 


需要 检查 Apache 的 配置 文件 ， 注 释 挥 不 想 要 的 模块 ， 然 后 重启 Apache 整 
行 。 也 可 以 在 php.ini 文 件 中 删除 不 使 用 的 PHP 模 块 。 





最 差 情况 是 ， 如 果 用 一 个 通用 目的 的 Apache 配 置 直接 用 于 Web 服 
务 ， 最 后 很 可 能 产生 很 多 重量 级 的 Apache 进 程 。 这 将 浪费 Web 服 务 器 的 
资源 。 它 们 还 可 能 保持 大 量 MySQL 连 接 ， 浪 费 MySQL 的 资源 。 下 面 是 
一 些 可 以 降低 服务 器 负载 的 方法 乌 。 





不 要 使 用 Apache 来 做 静态 内 容 服 务 ， 或 者 至 少 和 动态 服务 使 用 不 同 
的 Apache 实 例 。 流 行 的 蔡 代 品 有 Nginx (http:/www.nginx.com) 和 
lighttpd Chttp://www.lighttpd.net) 。 


。 使 用 缓存 代理 服务 器 ， 比 如 Squid 或 者 Varnish， 防 止 所 有 的 请 求 都 
到 达 Web 服 务 器 。 这 个 层面 即使 不 能 缓存 所 有 页 面 ， 也 可 以 缓存 大 
部 分 页 面 ， 并 且 使 用 像 ESI (Edge Side Includes, Bi 
http://www.esi.org) 这 样 的 技术 来 将 部 分 页 面 中 的 小 块 的 动态 内 容 
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对 动态 和 静态 资源 都 设置 过 期 策略 。 可 以 使 用 Squid 这 样 的 缓存 代 
理 显 式 地 使 内 容 过 期 。 维 基 百 科 就 使 用 了 这 个 技术 来 清理 缓存 中 变 
更 过 的 文章 。 








有 时 也 许 还 需要 修改 应 用 程序 ， 以 便 得 到 更 长 的 过 期 时 间 。 例 如 ， 
如 果 你 告诉 浏览 器 永久 缓存 CSS 和 JavaScript 文 件 ， 然 后 对 站 点 的 HTML 
做 了 一 个 修改 ， 这 个 页 面 演 染 将 会 出 问题 。 这 种 情况 可 以 为 文件 的 每 个 
版 本 设 定 唯 一 的 文件 名 。 例 如 ， 你 可 以 定制 网 站 的 发 布 脚本 ， 复 制 CSS 
文件 到 /css123_frontpage.css， 这 里 的 123 就 是 版 本 管理 器 中 的 版 本 号 。 
对 图 片 文件 的 文件 名 也 可 以 这 么 做 一 一 永 不 重用 文件 名 ， 这 样 页 面 就 不 
会 在 升级 时 出 问题 ， 浏 览 器 缓存 多 入 的 文件 都 没 问 题 。 





不 要 让 Apache 填 鸭 式 地 服务 客户 端 ， 这 不 仅仅 会 导致 慢 ， 也 会 导致 
DDoS 攻 击 变 得 人 简单。 硬件 负载 均衡 占 通 常 可 以 做 缓冲 ， 所 以 
Apache 可 以 快速 地 完成 ， 让 负载 均衡 器 通过 缓存 响应 客户 端的 请 
求 ， 也 可 以 在 应 用 服务 器 前 端 使 用 Nginx、Squid 或 者 事件 驱动 模式 
下 的 Apache。 

打开 gzip 压 缩 。 对 于 现在 的 CPU 而 言 这 样 做 的 代价 很 小 ， 但 是 可 以 
节省 大 部 分 流量 。 如 果 想 节省 CPU 周 期 ， 可 以 使 用 绥 存 ， 或 者 诸如 
Nginx 这 样 的 轻 量 级 服务 器 保存 压缩 过 的 页 面 版 本 。 

不 要 为 用 于 长 距离 连接 的 Apache 配 置 启 用 Keep-Alive 选 项 ， 因 为 这 
会 使 得 重量 级 的 Apache 进 程 存活 很 长 时 间 。 可 以 用 服务 器 端的 代理 
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Apache 到 代理 之 间 的 连接 使 用 Keep-Alive 是 可 以 的 ， 因 为 代理 只 会 
使 用 很 少 的 Apache 连 接 去 获取 数据 。 图 14-1 展 示 了 这 个 区 别 。 
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图 14-1: 代理 可 以 使 Apache 不 被 长 连接 拖 垮 ， 产 生 更 少 的 Apache 工 作 进 程 。 


这 些 策略 可 以 使 Apache 进 程 存活 时 间 变 得 很 短 ， 所 以 会 有 比 实际 需 


求 更 多 的 进程 。 无 论 如 何 ， 有 些 操作 依然 可 能 导致 Apache 进 程 存活 时 间 
太 长 ， 并 且 占 用 大 量 资 源 。 举 个 例子 ， 一 个 请 求 但 询 延 时 非常 大 的 外 部 











资源 ， 例 如 远程 的 Web 服 务 ， 就 会 出 现 Apache 进 程 存活 时 间 太 长 的 问 
题 。 这 种 问题 通 第 是 无 解 的 。 


14.2.1 寻找 最 优 并 发 度 


每 个 Web 服 务 器 都 有 一 个 最 佳 并 发 度 _ 就 是 说 ， 让 进程 处 理 请 求 
尽 可 能 快 ， 并 且 不 超过 系统 负载 的 最 优 的 并 发 连接 数 。 这 就 是 我 们 在 第 
11 章 说 的 最 大 系统 容量 。 进 行 一 个 简单 的 测量 和 建 模 ， 或 者 只 是 反复 斌 
验 ， 就 可 以 找到 这 个 “神奇 的 数 ”， 为 此 花 一 些 时 间 是 值得 的 。 








对 于 大 流量 的 网 站 ，Web 服 务 占 同一 时 刻 处 理 上 干 个 连接 是 很 常见 
的 。 然 而 ， 只 有 一 小 部 分 连接 需要 进程 实时 处 理 。 其 他 的 可 能 是 读 请 
求 ， 处 理 文件 上 传 ， 填 鸭 式 服务 内 容 ， 或 者 只 是 等 每 客户 并 的 下 一 步 请 
求 。 








随 着 并 及 的 增加 ， 服 务 器 会 逐渐 到 达 它 的 最 大 否 吐 量 。 在 这 之 后 ， 
否 吐 量 通 常 开始 降低 。 更 重要 的 是 ， 啊 应 时 间 (延迟 ) 也 会 因为 排队 而 
开始 增加 。 


为 什么 会 这 样 呢 ? 试想 ， 如 果 服 务 器 只 有 一 个 CPU， 同 时 接收 到 了 
100 个 请 求 ， 会 发 生 什 么 事情 呢 ? 假设 CPU 每 秒 能 够 处 理 一 个 请 求 。 即 
便 理 想 情 况 下 操作 系统 没有 调度 的 开销 ， 也 没有 上 下 文 切换 的 成 本 ， 那 
100 个 请 求 也 需要 CPU 花费 整整 100s 才 能 完成 。 


处 理 请 求 的 最 好 方法 是 什么 ? 可 以 将 其 一 个 个 地 排 到 队列 中 ， 也 可 
以 并 行 地 执行 并 在 不 同 请 求 之 间 切 换 ， 每 次 切换 都 给 每 个 请 求 相同 的 服 
务 时 间 。 在 这 两 种 情况 下 ， 否 吐 量 都 是 每 秒 处 理 一 个 请 求 。 然 而 ， 如 果 








使 用 队列 〈 并 发 =1) ， 平 均 延 时 是 50s， 如 果 是 并 发 执行 (并 发 =100) 
则 是 100s。 在 实践 中 ， 并 发 执行 会 使 平均 延 时 更 高 ， 主 要 是 因为 上 下 文 
切换 的 代价 。 








对 于 CPU 密集 型 工作 负载 ， 最 佳 并 发 度 等 于 CPU 数量 〈 或 者 CPU 核 
数 ) 。 然 而 ， 进 程 并 不 总 是 处 于 可 运行 状态 的 ， 因 为 会 有 一 些 阻塞 式 请 
求 ， 例 如 IO、 数据 库 查 询 ， 以 及 网 络 请 求 。 因 此 ， 最 佳 并 发 度 通常 会 
比 CPU 数量 高 一 些 。 





可 以 预测 最 优 并 发 度 ， 但 是 这 需要 精确 的 分 析 。 答 试 不 同 的 并 发 
值 ， 看 看 在 不 增加 啊 应 时 间 的 情况 下 的 最 大 吞吐 量 是 多 少 ， 或 者 测量 真 
正 的 工作 负载 并 且 进 行 分 析 ， 这 通常 更 容易 。Percona “Toolkit 的 pt-tcp- 
model 工 具 可 以 帮助 从 TCP 转 储 中 测量 和 建 模 分 析 系 统 的 可 扩展 性 和 性 


能 特性 。 








14.3 RT 


绥 存 对 高 负载 应 用 来 说 是 至 关 重 要 的 。 一 个 典型 的 Web 应 用 程序 会 
提供 大 量 的 内 容 ， 和 直接 生成 这 些 内 容 的 成 本 比 采 用 缓存 要 高 得 多 (包含 
检查 和 缓存 超时 的 开销 ) ， 所 以 采用 缓存 通常 可 以 获得 数量 级 的 性 能 提 
升 。 诀 罕 是 找到 正确 的 粒度 和 缓存 过 期 策略 组 合 。 另 外 也 需要 诀 定 哪些 
内 容 适 合 缓存， 绥 存 在 哪里 。 


























典型 的 高 负载 应 用 会 有 很 多 层 缓存 。 缓 仓 并 个 仅仅 及 生 在 服务 器 
上 ， 而 是 在 每 一 个 环节 ， 甚 至 包括 用 户 的 web 浏览 器 《〈 这 惑 是 内 容 过 期 
头 的 用 处 ) 。 通 营 ， 绥 存 越 接近 客户 端 ， 就 越 节 省 资源 并 且 效率 更 高 。 
从 浏览 器 缓存 提供 一 张 图 片 比 从 Web 服 务 器 的 内 存 获取 快 得 多 ， 而 从 服 
务 器 的 内 存 读 取 又 比 从 服务 器 的 磁盘 上 读 取 好 得 多 。 每 种 类 型 的 缓存 有 
其 不 一 样 的 特点 ， 例 如 容量 和 延 时 ， 在 后 面 的 章节 我 们 会 解释 其 中 的 一 


部 分 。 








可 以 把 缓存 分 成 两 大 类 : 被 动 缓存 和 主动 缓存 。 被 动 缓存 除了 存储 
和 返回 数据 外 不 做 任何 事情 。 当 从 被 动 缓存 请 求 一 些 内 容 时 ， 要 么 可 以 
得 到 结果 ， 要 么 得 到 “结果 不 存在 ”。 被 动 缓存 的 一 个 典型 例子 


memcached. 








相 比 之 下 ， 主 动 缓存 会 在 访问 未 命中 时 做 一 些 额 外 的 工作 。 通 常会 
将 请 求 转发 送 给 应 用 的 其 他 部 分 来 生成 请 求 结果 ， 然 后 存储 该 结果 并 返 
回 给 应 用 。Squid 缓 存 代 理 服务 器 就 是 一 个 主动 缓存 。 





设计 应 用 程序 时 ， 通 第 希望 缓存 是 主动 的 《也 可 以 叫做 透明 的 )， 


因为 它们 对 应 用 隐藏 了 检查 一 生成 一 存储 这 个 逻辑 过 程 。 也 可 以 在 被 动 
绥 存 的 前 面 构 建 一 个 主动 缓存 。 


14.3.1 ”应 用 层 以 下 的 缓存 


MySQL 服 务 嚣 有 上 自己 的 内 部 缓存 ， 但 也 可 以 构建 你 目 己 的 缓存 和 
汇 忌 表 。 可 以 对 缓存 表 量 喘 定制 ， 使 它们 最 有 效 地 过 滤 、 排 厅 、 与 其 他 
表 关 联 、 计 数 ， 或 者 用 于 其 他 用 途 。 绥 存 表 也 比 许多 应 用 层 缓存 更 持 
久 ， 因 为 在 服务 器 重 局 后 它们 还 存在 。 




















在 第 4 章 和 第 5 章 已 经 介绍 了 关于 缓存 策略 的 内 容 ， 所 以 在 这 一 章 ， 
我 们 主要 关注 应 用 层 以 及 更 高 层次 的 缓存 。 











缓存 并 不 总 是 有 用 


必须 确认 缓存 真 的 可 以 提升 性 能 ， 因 为 有 时 缓存 可 能 没有 任何 帮 
助 。 例 如 ， 在 实践 中 发 现 从 Nginx 的 内 存 中 获取 内 容 比 从 缓存 代理 中 
获取 要 快 。 如 果 代 理 的 缓存 在 磁盘 上 则 尤其 如 此 。 


原因 很 简单 : 缓存 自身 也 有 一 些 开销 。 比 如 检查 缓存 是 否 存 在 ， 
如 果 命 中 则 直接 从 缓存 中 返回 数据 。 另 外 将 缓存 对 象 失效 或 者 写 入 新 
的 缓存 对 象 都 会 有 开销 。 缓 存 只 在 这 些 开 销 比 没有 缓存 的 情况 下 生成 
和 提供 数据 的 开销 少时 才 有 用 。 


如 果 知 道 所 有 这 些 操 作 的 开销 ， 就 可 以 计算 出 缓存 能 提供 多 少 帮 
助 。 没 有 缓存 时 的 开销 就 是 为 每 个 请 求生 成 数据 的 开销 。 有 缓存 时 的 
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再 加 上 缓存 命中 的 概率 乘 以 缓存 提供 数据 的 开销 。 


如 果 有 缓存 时 的 开销 比 没有 时 要 低 ， 则 说 明 缓 存 可 能 有 用 ， 但 依 
然 不 能 保证 。 还 要 记 住 ， 就 像 从 Nginx 的 内 存 中 获取 数据 比 从 代理 在 
磁盘 中 的 缓存 获取 要 好 一 样 ， 有 些 缓存 的 开销 比 另 外 一 些 要 低 。 





14.3.2 ”应 用 层 缓存 


应 用 层 缓存 通常 在 同一 台 机 器 的 内 存 中 存储 数据 ， 或 者 通过 网 络 存 
FEF BLAS I ATE F. 


因为 应 用 可 以 缓存 部 分 计算 结果 ， 所 以 应 用 层 缓存 可 能 比 更 低层 次 
的 缓存 更 有 效 。 因 此 ， 应 用 层 缓存 可 以 节省 两 方面 的 工作 : 获取 数据 以 
及 基于 这 些 数 据 进行 计算 。 一 个 很 好 的 例子 是 HIML 文 本 块 。 应 用 程序 
可 以 生成 例如 头条 新 闻 的 标题 这 样 的 HTML 片 段 ， 并 且 做 好 缓存 。 后 续 
的 页 面 视图 就 可 以 简单 地 插入 这 个 缓存 过 的 文本 。 一 般 来 说 ， 在 缓存 数 
据 前 对 数据 做 的 处 理 越 多 ， 组 冲 命中 节省 的 工作 就 越 多 。 





但 应 用 层 缓存 也 有 人 缺点 ， 那 就 是 缓存 命中 率 可 能 更 低 ， 并 且 可 能 使 
用 较 多 的 内 存 。 假 设 需要 50 个 不 同 版 本 的 头条 新 闻 标题 ， 以 使 不 同 地 区 
生活 的 用 户 看 到 不 同 的 内 容 ， 那 束 需 要 足够 的 内 存 去 存储 全 部 50 个 版 
本 ， 任 何 给 定 版 本 的 标题 命中 次 数 都 会 更 少 ， 并 且 失 效 策 略 也 会 更 加 复 


ass 





应 用 缓存 有 许多 种 ， 下 面 是 其 中 的 一 小 部 分 。 


本 地 缓存 


Na 





这 种 绥 存 通常 很 小 ， 只 在 进程 处 理 请 求 期 间 存 在 于 进程 内 存 
中 。 本 地 缓存 可 以 有 效 地 避免 对 某 些 资源 的 重复 请 求 。 这 种 类 型 的 
缓存 技术 并 不 复杂 : 通常 只 是 应 用 代码 中 的 一 个 变量 或 者 哈 希 表 。 
例如 ， 假 设 需要 显示 一 个 用 户 名 ， 而 且 已 经 知道 其 D， 就 可 以 创建 
一 个 get_name from id() 函数 并 且 在 其 中 增加 缓存 ， 像 下 面 这 
样 。 





<?php 


function get_name_from_id($user_id) { 





static $name; // static makes the variable persist 
if ( !$name ) { 
// Fetch name from database 


Í 


return $name; 


?> 


如 果 使 用 的 是 Perl， 那 么 Memoi ze 模块 是 函数 调用 结果 标准 的 缓存 方 


use Memoize qw(memoize); 


memoize 'get_name_from_id'; 





sub get_name_from_id { 





my ( $user_id ) = @; 
my $name = # get name from database 


return $name; 


} 
这 些 技巧 都 很 简单 ， 但 却 可 以 为 应 用 程序 节省 很 多 工作 。 


本 地 共享 内 存 缓存 





这 种 缓存 一 般 是 中 等 大 小 〈 儿 个 GB) ， 人 快速 ， 难 以 在 多 人 台 机 
器 间 同 步 。 它 们 对 小 型 的 半 静 态 位 数据 比较 合适 。 例 如 每 个 州 的 城 
市 列表 ， 分 片 数据 存储 的 分 区 函数 《映射 表 ) ， 或 者 使 用 存活 时 间 
(TTL) 策略 进行 失效 的 数据 等 。 共 享 内 存 最 大 的 好 处 是 访问 非常 
快 一 一 通常 比 其 他 任何 远程 缓存 访问 都 要 快 不 少 。 





分 布 式 内 存 缓存 





最 常见 的 分 布 式 内 存 缓存 的 例子 是 memcached。 分 布 式 绥 存 比 
本 地 共享 内 存 绥 存 要 大 得 多 ， 增 长 也 容易 。 绥 存 中 创建 的 数据 的 每 
一 个 比特 都 只 有 一 份 副 本 ， 这 样 既 不 会 浪费 内 存 ， 也 不 会 因为 相同 
的 数据 存在 不 同 的 地 方 而 引入 一 致 性 问题 。 分 布 式 内 存 非常 适合 存 
储 共享 对 象 ， 例 如 用 户 资料 、 评 论 ， 以 及 HTML 厂 段 。 











分 布 式 缓存 比 本 地 共享 缓存 的 延 时 要 高 得 多 ， 所 以 最 高 效 的 使 
用 方法 是 批量 进行 多 个 获取 操作 例如， 在 一 次 循环 中 获取 多 个 对 
象 )。 分 布 式 缓存 还 需要 考虑 怎么 增加 更 多 的 节点 ， 以 及 某 个 节点 
崩 尝 了 怎么 处 理 。 对 于 这 两 个 场景 ， 应 用 程序 必须 决定 在 节点 间 怎 
么 分 布 或 重 分 布 缓存 对 象 。 当 缓存 集群 增加 或 减少 一 合 服务 右 时 ， 
一 致 性 缓存 对 避免 性 能 问题 而 言 是 非常 重要 的 。 在 下 面 这 个 网 站 有 
一 个 为 memcached 做 的 一 致 性 缓存 
Æ: http://www.audioscrobbler.net/development/ketama/ - 

















磁盘 上 的 缓存 


磁盘 是 很 慢 的 ， 所 以 缓存 在 磁盘 上 的 最 好 是 持久 化 对 象 ， 很 难 
全 部 装 进 内 存 的 对 象 ， 或 者 静态 内 容 〈 例 如 预 处 理 的 目 定 义 图 
ee 


对 于 磁盘 上 的 缓存 和 Web 服 务 器 ， 一 个 非常 有 用 的 技巧 是 使 用 
404 错 误 处 理 机 制 来 捕捉 绥 存 未 命中 的 情况 。 假 设 Web 应 用 要 在 头 
部 展示 一 张 基于 用 户 名 (“欢迎 回来 ， John!”) INA XA, FF 
且 通 过 /imageswelcomebaclvjiopn.jpg 这 样 的 路 径 引 用 此 图 片 。 如 果 
图 片 不 存在 ， 将 会 导致 一 个 404 错 误 ， 并 且 触 发 上 述 错 误 处 理 。 这 
个 错误 处 理 可 以 生成 图 片 ， 在 人 磁盘 上 存储 它 ， 然 后 发 出 一 个 重 定 问 
或 者 将 该 图 片 传 回 浏览 上 器。 后续 的 请 求 只 需要 从 文件 中 直接 返回 图 
Jra 





有 很 多 类 型 的 内 容 可 以 使 用 这 种 技巧 。 例 如 ， 不 用 再 将 最 近 的 
标题 作为 HTML 部 分 进行 缓存 ， 可 以 在 JavaScript 文 件 中 存储 这 些 东 
西 ， 然 后 在 网 页 头 中 引用 这 个 文件 : latest_headlines.js。 





缓存 失效 很 简单 :删除 文件 即 可 。 可 以 通过 执行 一 个 删除 N 分 
钟 前 所 创建 的 文件 的 定时 任务 ， 来 实现 TIL 失 效 。 如 采 想 要 限制 绥 
存 大 小 ， 也 可 以 通过 按 最 近 访 问 时 间 排 序 来 删除 文件 ， 从 而 实现 最 
近 最 少 使 用 CLRU) 失效 算法 。 








如 果 失 效 党 略 是 基于 最 近 访 问 时 间 ， 则 必须 在 文件 系统 挂 载 参 
数 中 打开 访问 时 间 记 录 。 《忽略 noat ime 选 项 即 可 。) 如 果 这 人 么 
做 ， 应 该 使 用 内 存 文 件 系统 来 避免 大 量 磁 盘 操 作 。 


14.3.3 Ze¢ePe MR 


缓存 也 有 像 反 范式 化 数据 库 设 计 一 样 的 问题 ， 重 复数 据 ， 也 就 是 说 
有 多 个 地 方 需 要 更 新 数据 ， 所 以 需要 想 办 法 避免 读 到 脏 数据 。 下 面 是 一 
些 最 常见 的 缓存 控制 集 略 。 


TTL (time to live, @#i& ia] ) 





缓存 对 象 存储 时 设置 一 个 过 期 时 间 ; 可 以 通过 清理 进程 在 达到 
过 期 时 间 后 删 挥 对象， 或 者 先 留 着 直到 下 次 访问 时 再 清理 (清理 后 
需要 使 用 新 的 版 本 蔡 换 ) 。 对 于 数据 很 少 变 更 或 者 没有 新 数据 的 情 
况 ， 这 是 最 好 的 失效 集 略 。 





显 式 失效 


如 果 不 能 接受 脏 数据 ， 那 么 进程 在 更 新 原始 数据 时 需要 同时 使 
缓存 失效 。 这 种 策略 有 两 个 变种 : 写 一 失效 和 与 一 更 新 。 写 一 失效 
打上 略 很 简单 :只 需要 标记 绥 存 数据 已 经 过 期 (是否 清理 缓存 数据 是 
可 选 的 ) 。 写 一 更 新 集 略 需 要 多 做 一 些 工作 ， 因 为 在 更 新 数据 时 就 
需要 丛 换 挥 缓存 项 。 无论 如 何 ， 这 都 是 非 第 有 益 的 ， 特 别 是 当 生 成 
绥 存 数据 代价 很 昂贵 时 《〈《 写 线程 也 许 已 经 做 了 ) 。 如 果 更 新 缓存 数 
据 ， 后 续 的 请 求 将 不 再 需要 等 竺 应 用 来 生成 。 如 果 在 后 合 做 失效 处 
理 ， 例 如 基于 TIL 的 失效 ， 束 可 以 在 一 个 从 用 户 请 求 完全 分 离 出 来 
的 进程 中 生成 失效 数据 的 新 版 本 。 














读 时 失效 





在 更 改 旧 数据 时 ， 为 了 避免 要 同时 失效 派生 出 来 的 脏 数据 ， 可 





以 在 缓存 中 保存 一 些 信息 ， 当 从 缓存 中 读数 据 时 可 以 利用 这 些 信 息 
判断 数据 是 否 已 经 失效 。 和 显 式 失效 策略 相 比 ， 这 样 做 有 很 大 的 优 
D: 成 本 固定 且 可 以 分 散在 不 同时 间 内 。 假 设 要 失效 一 个 有 一 百 万 
缓存 对 象 依赖 的 对 象 ， 如 果 采 用 写 时 失效 ， 需 要 一 次 在 缓存 中 失效 
一 百 万 个 对 象 ， 即 使 有 高 效 的 方法 来 找到 这 些 对 象 ， 也 可 能 需要 很 
长 的 时 间 才 能 完成 。 如 果 采 用 读 时 失效 ， 写 操作 可 以 立即 完成 ， 但 
后 续 这 一 百 万 对 象 的 读 操 作 可 能 会 有 上 略微 的 延 人 运 。 这 样 就 把 失效 一 
百 万 对 象 的 开销 分 散 了 ， 并 且 可 以 帮助 避免 出 现 负 载 冲 高 和 延迟 增 
大 的 峰值 。 





一 种 最 简单 的 读 时 失效 的 办 法 是 采用 对 象 版 本 控制 。 使 用 这 种 方 
法 ， 在 缓存 中 存储 一 个 对 象 时 ， 也 可 以 存储 对 象 所 依赖 的 数据 的 当前 版 
本 号 或 者 时 间 惟 。 例 如 ， 假 设 要 缓存 用 户 博 客 日 志 的 统计 信息 ， 包 括 用 
户 发 表 的 博客 数 。 当 缓存 blog_stats 对 象 时 ， 也 可 以 同时 存储 用 户 的 当 
前 版 本 号， 因为 该 统计 信息 是 依赖 于 用 户 的 。 


人 不定 什么 时 候 更 新 依赖 于 用 户 的 数据 ， 都 需要 更 新 用 户 的 版 本 写 ， 
假设 用 户 的 版 本 号 初始 为 0， 并 且 由 你 来 生成 和 缓存 统计 信息 。 当 用 户 
发 表 了 一 篇 博客 ， 就 增加 用 户 的 版 本 写 到 1 (当然 也 要 同时 存储 这 篇 博 
客 ， 尽 管 在 这 个 例子 并 没有 用 到 博客 数据 ) 。 然 后 当 需 要 显示 统计 数据 
的 时 候 ， 可 以 对 缓存 中 blog_stats 对 象 的 版 本 与 缓存 的 用 户 版 本 进行 比 
较 。 因 为 用 户 的 版 本 比 对 象 的 版 本 高 ， 所 以 可 以 知道 缓存 的 统计 信息 已 
经 过 期 了 ， 震 要 重新 计算 。 














这 是 一 个 非常 粗粮 的 内 容 失 效 方式 ， 因 为 它 假 设 依赖 于 用 户 的 每 一 
个 比特 的 数据 与 所 有 其 他 数据 都 有 交互 。 但 这 个 假设 并 不 总 是 成 立 的 。 
举 个 例子 ， 如 果 一 个 用 户 对 一 篇 博客 做 了 编辑 ， 你 也 需要 增加 用 户 的 版 
本 写 ， 这 就 会 导致 存储 的 统计 信息 失效 ， 而 实际 上 统计 信息 (发表 的 博 


BO) 并 没 真 的 改变 。 这 个 取舍 


古 很 简单 的 。 一 个 简单 的 缓存 失效 集 略 
不 只 是 更 容易 创建 ， 也 可 能 更 加 高 ? 


效 。 





对 象 版 本 控制 是 一 种 简单 的 标记 绥 存 方法 ， 它 可 以 处 理 更 复杂 的 依 
赖 天 系 。 一 个 标记 的 缓存 可 以 识别 不 同类 型 的 依赖 ， 并 且 分 别 跟 踊 每 个 
依赖 的 版 本 。 回 到 第 11 章 中 图 书 俱乐部 的 例子 ， 你 可 以 通过 下 面 的 版 本 
号 标记 评论 ， 使 缓存 的 评论 依赖 于 用 户 的 版 本 和 书 的 版 
AX: user_ver=1234 和 book _ver=5678。 任 一 版 本 号 变 了 ， 都 应 该 刷新 组 
存 的 评论 。 


14.3.4 缓存 对 象 分 层 


分 层 缓存 对 象 对 检索 、 失 效 和 内 存 利用 都 有 帮助 。 相 对 于 只 缓存 对 
象 ， 也 可 以 缓存 对 象 的 ID、 对 象 的 ID 组 等 通常 需要 一 起 检索 的 数据 。 














电子 商务 网 站 的 搜索 结果 是 这 种 技术 很 好 的 例子 。 一 次 搜索 可 能 返 
回 一 个 匹配 产品 的 列表 ， 包 括 名称 、 描 述 、 缩 略图 ， 以 及 价格 。 缓 存 整 
个 列表 的 效率 很 低 : 其 他 的 搜索 也 可 能 会 包含 一 些 相同 的 产品 ， 这 就 会 
导致 数据 重复 ， 并 且 浪 费 内 存 。 这 种 集 略 也 使 得 当 一 个 产品 的 价格 变动 
时 ， 找 出 并 失效 搜索 结果 变 得 很 困难 ， 因 为 你 必须 查看 每 个 列表 ， 找 到 
哪些 列表 包含 了 更 新 过 的 产品 。 











可 以 缓存 关于 搜索 的 最 小 信息 ， 而 不 必 缓 存 整个 列表 ， 例 如 返回 结 
果 的 数量 以 及 列表 中 的 产品 ID 。 然 后 可 以 再 单独 缓存 每 个 产品 。 这 样 做 
可 解决 两 个 问题 : 不 会 重复 存放 任何 结 琳 数据， 也 更 容易 在 失效 产品 的 
粒度 上 去 失效 缓存 。 





缺点 则 是 ， 相 对 于 一 次 性 获得 整个 搜索 结果 ， 必 须 在 缓存 中 检索 多 
个 对 象 。 然 而 不 管 怎 么 说 ， 为 搜索 结果 缓存 产品 了 的 列表 都 是 更 有 效 的 
做 法 。 先 在 一 个 缓存 命中 返回 也 的 列表 ， 再 使 用 这 些 ID 去 请 求 绥 存 获得 
产品 信息 。 如 果 绥 存 允 许 在 一 次 调用 里 返回 多 个 结果 ， 第 二 次 请 求 就 可 
以 返回 多 个 产品 (memcached 通 过 mget () 调用 来 支持 ) 。 


如 末 使 用 不 当 ， 这 种 方法 可 能 会 导致 奇怪 的 结果 。 假 设 使 用 TIL 寅 
略 来 失效 搜索 结果 ， 并 且 当 产品 变更 时 显 式 地 去 失效 单个 产品 。 现 在 想 
象 一 下 ， 一 个 产品 的 描述 发 生 了 变化 ， 不 再 包含 搜索 中 匹配 的 关键 字 ， 
但 是 搜索 结果 的 缓存 还 没有 过 期 失效 。 此 时 用 户 就 会 看 到 错误 的 搜索 结 
果 ， 因 为 缓存 的 搜索 结果 将 会 引用 这 个 变化 了 的 产品 ， 即 使 它 不 再 包含 
匹配 搜索 的 关键 字 。 





对 于 大 多 数 应 用 程序 来 说 ， 这 不 是 问 题 。 如 果 应 用 程序 不 能 容忍 这 
种 情况 ， 可 以 使 用 基于 版 本 的 缓存 ， 并 在 执行 搜索 时 在 结果 中 存储 产品 
的 版 本 号 。 当 发 现 搜索 结果 在 缓存 中 时 ， 可 以 将 当前 搜索 结果 的 版 本 号 
和 搜索 结果 中 每 个 产品 的 版 本 号 做 比较 。 如 果 发 现任 何 一 个 产品 的 版 本 
数据 不 一 致 ， 可 以 重新 搜索 并 且 重 新 缓存 结果 。 














这 对 理解 远程 缓存 访问 的 花 销 是 多 么 昂贵 非常 重要 。 虽 然 缓 存 很 
快 ， 也 可 以 避免 很 多 工作 ， 但 在 LAN 环 境 下 网 络 往返 缓存 服务 器 通常 也 
再 要 0.3ms 左 右 。 我 们 见 过 很 多 和 案例， 复杂 的 网 页 再 要 一 千 次 左右 的 组 
存 访问 来 组 合 页 面 结 果 ， 这 将 会 耗费 3s 左 右 的 网 络 延 时 ， 意 味 看 你 的 页 
面 可 能 慢 得 不 可 接受 ， 即 使 它 甚 至 不 需要 访问 数据 库 ! 因此 ， 在 这 种 情 
况 下 对 缓存 使 用 批量 获取 调用 是 非常 重要 的 。 对 缓存 进行 分 层 ， 采 用 小 
一 些 的 本 地 缓存 ， 也 可 能 获得 很 大 的 收益 。 











14.3.5” 预 生成 内 容 


除了 在 应 用 程序 级 别 缓存 位 数据 ， 也 可 以 在 后 人 台 预 先 请 求 一 些 页 
面 ， 并 且 将 结果 存 为 静态 页 面 。 如 有 果 页 面 是 动态 的 ， 也 可 以 预先 生成 页 
面 的 部 分 内 容 ， 然 后 使 用 像 服务 端 包 含 “SSI) 这 样 的 技术 创建 最 终 页 
面 。 这 有 助 于 减 小 预 生成 内 容 的 大 小 和 开销 ， 人 否则 可 能 在 将 不 同 部 分 拼 
装 到 最 终 页 面 的 时 候 ， 由 于 微小 的 变化 产生 大 量 的 重复 内 容 。 几 乎 可 以 
对 任何 类 型 的 缓存 使 用 预 生 成 策略 ， 包 括 memcached。 


预 生成 内 容 有 几 个 重要 的 好 处 。 


应 用 代码 没有 复杂 的 命中 和 未 命中 处 理 路 径 。 

当 未 命中 的 处 理 路 径 慢 得 不 可 接受 时 ， 这 种 方案 可 以 很 好 地 工作 ， 
因为 它 保 证 了 未 命中 的 情况 永远 不 会 发 生 。 实 际 上 ， 在 任何 时 候 设 
计 任 何 类 型 的 缓存 系统 ， 总 是 应 该 考虑 未 命中 的 路 径 有 多 慢 。 如 果 
平均 性 能 提升 很 大 ， 但 是 因为 要 预 生 成 缓存 内 容 ， 人 和 偶尔 有 一 些 请 求 
变 得 非常 缓慢， 这 时 可 能 比 不 用 缓存 还 糟糕 。 性 能 的 持续 稳定 通常 
跟 高 性 能 一 样 重要 。 

预 生 成 内 容 可 以 避免 在 缓存 未 命中 时 导致 的 雪 朋 效应 。 














缓存 预 生 成 好 的 内 容 可 能 占用 大 量 空间 ， 并 且 并 不 总 能 预 生 成 所 有 
东西 。 无 论 是 哪 种 形式 的 缓存 ， 需 要 预 生成 的 内 容 中 最 重要 的 部 分 是 那 
些 最 经 常 被 请 求 ， 或 者 生成 的 成 本 最 高 的 ， 所 以 可 以 通过 本 章 前 面 提 到 
的 404 错 误 处 理 机 制 来 按 需 生成 。 





预 生成 的 内 容 有 时 候 也 可 以 从 内 存 文 件 系 统 中 获 益 ， 因 为 可 以 避免 
RIO. 


14.3.6 ”作为 基础 组 件 的 缓存 


缓存 有 可 能 成 为 基础 设施 的 重要 组 成 部 分 。 也 很 容易 陷入 一 个 陷 
阱 ， 认 为 缓存 虽然 很 好 用 ， 但 并 不 是 重要 到 非 有 不 可 的 东西 。 你 也 许 会 
辩驳 ， 如 果 绥 存 服务 器 宕 机 或 者 缓存 被 清空 ， 请 求 也 可 以 直接 落 在 数据 
库 上 ， 系 统 依然 可 以 正常 运行 。 如 果 是 刚刚 将 缓存 加 入 应 用 系统 ， 这 也 
许 是 对 的 ， 但 是 缓存 的 加 入 可 以 使 得 在 应 用 压力 显著 增长 时 不 需要 对 系 
统 的 东 些 部 分 同比 增加 资源 投入 一 一 通常 是 数据 库 部 分 。 因 此 ， 系 统 可 
能 慢 慢 地 变 得 对 缓存 非常 依赖 ， 却 没有 被 发 觉 。 




















例如 ， ”如果 高 速 缓存 命中 率 是 90% ， 当 由 于 菜 种 原因 失去 缓存 ， 
数据 库 上 的 负载 将 增加 到 原来 的 10 倍 。 这 很 可 能 导致 压力 超过 数据 库 服 
务 器 的 性 能 极限 。 





为 了 避免 像 这 样 的 意外 ， 应 该 设计 一 些 高 可 用 性 缓存 (包括 数据 和 
服务 〉 的 解决 方 采 ， 或 者 至 少 是 评估 好 茶 用 缓存 或 丢失 缓存 时 的 性 能 影 
啊 。 比 如 说 可 以 设计 应 用 在 遇 到 这 样 的 情况 时 能 够 进行 降级 处 理 。 





14.3.7 444 HandlerSocket#!! 
memcached 


相对 于 数据 存储 在 MySQL 中 而 缓存 在 MySQL 外 部 的 缓存 方案 ， 男 
外 有 一 种 蔡 代 方法 是 为 MySQL 创 建 一 个 更 快 的 访问 路 径 ， 直 接 绕 过 使 
用 缓存 。 对 于 小 而 简单 的 查询 语句 ， 很 大 一 部 分 开销 来 自 解析 SQL， 检 
碍 权限 ， 生 成 执行 计划 ， 等 等 。 如 果 这 种 开销 可 以 避免 ， MySQL 在 处 
理 简单 查询 时 将 非常 快 。 








目前 有 两 个 解决 方案 可 以 用 所 谓 的 NoSQL 方 式 访问 MySQL。 第 一 
种 是 一 个 后 台 进 程 插件 ， 称 为 HandlerSocket， 由 DeNA 开 发 ， 这 是 日 本 
最 大 的 社交 网 站 。HandlerSocket 人 允许 通过 一 个 简单 的 协议 访问 InnoDB 
Handler 对 象 。 实 际 上 ， 也 残 是 经 过 了 上 层 的 服务 器 层 ， 通 过 网 络 直接 
连接 到 了 InnoDB 引 擎 层 。 有 报告 称 HandlerSocket 每 秒 可 以 执行 超过 750 
000 条 查询 。Percona Server 分 文中 目 带 了 HandlerSocket 插 件 引 警 层 。 





第 二 个 方案 是 通过 memcached 协 议 访 问 InnoDB。MySQL 5.6 的 实验 
室 版 本 有 一 个 插件 提供 了 这 个 接口 。 


两 种 方法 都 有 一 些 限制 一 一 特别 是 memcached 的 方法 ， 这 种 方法 对 
很 多 访问 数据 的 方法 都 不 文 持 。 为 什么 会 希望 采用 SQL 以 外 的 什么 办 法 
访问 数据 呢 ? 除了 速度 之 外 ， 最 大 的 原因 可 能 是 简单 。 这 样 做 最 大 的 好 
处 是 可 以 摆脱 缓存 ， 以 及 所 有 的 失效 逻辑 ， 还 有 为 它们 服务 的 额外 的 基 
础 设施 。 





14.4 拓展 MySQL 


如 果 MySQL 不 能 做 你 需要 的 事 ， 一 种 可 能 是 拓展 其 功能 。 在 这 里 
我 们 不 会 展示 如 何 做 到 这 一 点 ， 但 会 提供 一 些 可 能 的 方向 。 如 宋 你 对 进 
一 步 探 索 有 兴趣 ， 那 么 有 很 多 很 好 的 在 线 资源 ， 以 及 许多 关于 这 些 内 容 
的 书籍 可 以 参考 。 








当 我 们 说 “MySQL 不 能 做 你 需要 的 事 ”， 我 们 指 的 是 两 件 事情 : 
MYVySQL 根 本 做 不 到 这 一 点 ， 或 者 MySQL 可 以 做 到 ， 但 是 只 能 通过 缓慢 
或 笨拙 的 方法 ， 总 之 做 得 不 够 好 。 无 论 哪个 都 是 需要 对 MySQL 拓 展 的 
原因 。 好 消息 是 ，MySQL 已 经 越 来 越 模 块 化 和 通用 。 








存储 引擎 是 拓展 MySQL 的 一 个 很 好 的 方式 。Brian Aker 已 经 写 了 一 
个 存储 引擎 的 框架 ， 还 有 一 系列 介绍 有 关 如 何 开始 编 写 自 己 的 存储 引擎 
的 文章 。 这 是 目前 几 个 主要 的 第 三 方 存 储 引 擎 的 基础 。 许 多 公司 都 编写 
了 它们 自己 的 内 部 存储 引擎 。 例如， 一 些 社交 网 络 公司 使 用 了 特殊 的 为 
社交 图 形 操 作 设 计 的 存储 引擎 ， 我 们 还 知道 有 个 公司 定制 了 一 个 用 于 模 
糊 搜索 的 引擎 。 写 一 个 简单 的 自 定 义 存 储 引擎 并 不 难 。 











还 可 以 使 用 存储 引擎 作 为 为 一 个 软件 的 接口 。Sphinx 引 擎 就 是 一 个 
很 好 的 例子 ， 该 引擎 是 Sphinx 全 文 检索 软件 的 接口 ( 见 附录 F)。 


145 MYySQL 的 蔡 代 品 


MySQL 并 不 是 适合 每 一 个 场景 的 解决 方案 。 有 些 工作 通常 在 
MySQL 以 外 来 做 会 更 好 ， 即 使 MySQL 理 论 上 也 可 以 做 到 。 








最 明显 的 一 个 例子 是 在 传统 的 文件 系统 中 存储 文件 ， 而 不 是 在 表 
中 。 图 像 文 件 是 经 典 案 例 : 虽然 可 以 把 它们 放 到 一 个 BLOB 列 ， 但 这 通 
常 不 是 个 好 办 法 包 。 一 般 的 做 法 是 ， 在 文件 系统 中 存储 图 片 或 其 他 大 型 
二 进 制 文件 ， 而 在 MySQL 中 只 存储 文件 名 ; 然后 应 用 程序 在 MySQL 之 
外 存 取 文 件 。 对 于 Web 应 用 程序 ， 可 以 把 文件 名 放 在 《img> 元 素 的 Src 属 
性 中 ， 这 样 就 可 以 实现 对 文件 的 存 取 。 


全 文 检索 是 另 一 个 最 好 放 在 MySQL 之 外 处 理 的 例子 一 -MySQL 在 
全 文 搜 索 方面 明显 不 如 Lucene 和 Sphinx。 


NDB API 也 可 能 对 某 些 任务 有 用 。 例 如 ， 尺 管 MySQL 的 NDB 和 集群 
存储 引擎 〈 目 前 还 ) 不 适合 存储 一 个 高 性 能 Web 应 用 程序 的 全 部 数据 ， 
但 用 NDB API 直 接 存 储 网 站 会 话 数据 或 用 户 注 册 信 息 还 是 可 能 的 。 在 如 

下 网 站 可 以 了 解 到 更 多 关于 NDB API 的 内 
容 : http:/dev.mysql.com/doc/mdbapi/en/index.html。 还 有 供 Apache 使 用 的 
NDB İk, mod_ndb, ¥ V\fEhttp://code.google.com/p/mod-ndb/ F #X, - 











最 后 ， 对 于 某 些 操作 一 一 如 图 形 关 系 和 树 志 有 历 一 一 关系 型 数据 库 并 
不 总 是 正确 的 典范 。MySQL 并 不 擅长 分 布 式 数据 处 理 ， 因 为 它 缺 乏 并 
行 执行 查询 的 能 力 。 出 于 这 些 目 的 情况 还 是 建议 使 用 其 他 工具 (可 能 与 
MySQL 结 合 )。 现 在 想到 的 例子 包括 : 








。 对 于 简单 的 键 一 值 存 储 ， 在 复制 严重 落后 的 非常 高 速 的 访问 场景 
中 ， 我 们 建议 用 Redis 蔡 换 MySQL。 即 使 MySQL 主 库 可 以 承担 这 样 
的 压力 ， 备 库 的 延迟 也 是 非常 让 人 头疼 的 。Redis 也 销 用 来 做 队 
列 ， 因 为 它 对 队列 操作 支持 得 很 好 。 

e Hadoop 是 房间 中 的 大 象 ， 一 语 双 关 。 混 合 MySQL/Hadoop 的 部 署 在 
处 理 大 型 或 半 结 构 化 数据 时 非常 常见 。 





146 总结 


优化 并 不 只 是 数据 库 的 事 。 正 如 我 们 在 第 3 章 建 议 的 ， 最 高 形式 的 
优化 既 包 含 业务 上 的 ， 也 包含 用 户 层 的 。 全 方位 的 优化 才 是 好 的 优化 。 


一 般 来 次 ， 首 先 要 做 的 事 是 测量 。 认 真 放 析 每 一 层 的 问题 。 哪 一 层 
导致 了 大 部 分 的 啊 应 时 间 ? 对 这 一 层 就 要 重点 关注 。 如 果 用 户 的 经 验 是 
大 部 分 的 时 间 消 耗 在 浏览 器 的 DOM 演 染 上 面 ，MySQL 只 贡献 总 响应 时 
间 的 一 小 部 分 ， 那 么 进一步 优化 查询 语句 绝对 不 可 能 明显 地 改善 用 户 体 
验 。 在 测量 完成 后 ， 通 常 很 容易 理解 应 该 在 哪里 投入 精力 。 我 们 建议 阅 
读 Steve Souders 的 两 本 书 (High Performance Web Sites 和 Even Faster 
Web Sites) ， 并 且 建 议 使 用 New Relic TH. 

















在 Web 服 务 器 的 配置 和 缓存 中 经 第 可 以 友 现 大 问题 ， 而 这 些 问题 往 
往 很 容易 解决 。 还 有 一 个 固有 的 观念 ,，“ 忌 是 数据 库 的 问题 "， 但 这 其 实 
是 不 正确 的 。 应 用 程序 中 的 其 他 层 也 同样 重要 ， 它 们 很 可 能 被 错误 配 
置 ， 尺 管 有 时 不 太 明 显 。 特 别 是 缓存 ， 能 承受 比 只 使 用 MySQL 要 低 得 
多 的 成 本 传递 大 量 内 容 。 虽 然 Apache 依 然 是 世界 上 最 流行 的 web 服 务 器 
软件 ， 但 它 并 不 总 是 最 合适 的 工具 ， 因 此 考虑 像 Nginx 这 样 的 符 代 方案 
也 是 非常 有 意义 的 。 






























































O 填 鸭 式 抓 取 发 生 在 当 一 个 客户 端 发 起 HTTP 请 求 ， 但 是 没有 迅速 获取 结果 时 。 直 到 客户 
端 获 取 整 个 结果 ，HITP 连 接 一 一 以 及 处 理 的 Apache 进 程 一 一 都 将 保持 活跃 。 

(2) 有 一 本 关于 如 何 优化 Web 应 用 的 很 不 错 的 书 High Performance Web Sites， 作 者 是 
Steve Souders (O'Reilly) 。 尽 管 书 中 大 部 分 内 容 是 从 客户 的 角度 来 看 如 何 让 Web 站 点 运行 更 





















































快 ， 但 是 参考 他 的 建议 也 有 利于 你 的 服务 器 。Steve 后 续 的 一 本 书 Even Faster Web Sites 也 很 不 


错 ， 





值得 阅读 。 
G) 使 用 MySQL 的 复制 来 快速 分 布 镜像 到 其 他 机 器 更 有 优势 ， 我 们 知 





技术 。 


Nee 














qa 


些 程序 使 有 


HI 











第 15 革 备份 与 恢复 


如 果 没 有 提前 做 好 备份 规划 ， 也 许 以 后 会 及 现 已 经 错失 了 一 些 最 佳 
的 选择 。 例 如 ， 在 服务 器 已 经 配置 好 以 后 ， 才 想起 应 该 使 用 LVM， 以 
便 可 以 获取 文件 系统 的 快照 一 一 但 这 时 已经 太 迟 了 。 在 为 备份 配置 系统 
参数 时 ， 可 能 没有 注意 到 某 些 系统 配置 对 性 能 有 着重 要 影响 。 如 果 没 有 
计划 做 定期 的 恢复 演练 ， 当 真 的 需要 恢复 时 ， 就 会 发 现 并 没有 那么 顺 
利 。 

















相对 于 本 书 的 第 一 版 和 第 二 版 来 说 ， 我 们 在 此 假设 大 部 分 用 户主 要 
使 用 InnoDB 而 不 是 MyISAM。 在 本 章 中 ， 我 们 不 会 涵盖 一 个 精心 设计 的 
备份 和 恢复 解决 方案 的 所 有 部 分 一 一 而 仅 涉 及 与 MySQL 相 关 的 部 分 。 
我 们 不 打算 包括 的 话题 如 下 : 





。 安全 《访问 备份 ， 恢 复数 据 的 权限 ， 文 件 是 售 需 要 加 密 ) 。 

。 备份 存储 在 哪里 ， 包 括 它 们 应 该 离 源 数据 多 远 《〈 在 一 块 不 同 的 盘 
上 ,一 人 台 不 同 的 服务 占 上 ， 或 离线 存储 ) ， 以 及 如 何 将 数据 从 源头 
移动 到 目的 地 。 

。 保留 倘 略 、 审 计 、 法 律 要 求 ， 以 及 相关 的 条 球 。 

。 存储 解决 方案 和 介质 ， 压 缩 ， 以 及 增 量 备份 。 

。 存储 的 格式 。 

。 对 备份 的 监控 和 报告 。 

。 存储 层 内 置 备 份 功能 ， 或 者 其 他 专用 设备 ， 例 如 预制 式 文件 服务 
AÑ o 





像 这 样 的 话题 已 经 在 许多 书 中 涉及 ， 例 如 W. Curtis Preston) Backup 
& Recouery ( O'Reilly) 。 


FEA UGA EA, ERAAI LANA ONE. Se, 2 AY A 
到 所 谓 的 热 备 份 、 暖 备份 和 冷 备份 。 人 们 经 常 使 用 这 些 词 来 表示 一 个 备 
份 的 影响 : 例如 ,，“ 热 ”备份 不 需要 任何 的 服务 停机 时 间 。 问 题 是 对 这 些 
术语 的 理解 因 人 而 寞 。 有 些 工 具 虽 然 在 名 字 中 使 用 了 “ 热 备 份 ”， 但 实际 
上 并 不 是 我 们 所 认为 的 那样 。 我 们 尽量 避 开 这 些 术语 ， 而 直接 说 明 茶 个 
特别 的 技术 或 工具 对 服务 器 的 影响 。 








另外 两 个 让 人 困惑 的 词 是 还 原 和 恢复 。 在 本 章 中 它们 有 其 特定 的 合 
义 。 还 原意 味 着 从 备份 文件 中 获取 数据 ， 可 以 加 载 这 些 文件 到 MySQL 
里 ， 也 可 以 将 这 些 文件 放置 到 MySQL 期 望 的 路 径 中 。 恢 复 一 般 意 味 着 
当 茶 些 寞 常 太 生 后 对 一 个 系统 或 其 部 分 的 拯救 。 包 括 从 备份 中 还 原 数 
据 ， 以 及 使 服务 器 完全 恢复 功能 的 所 有 必要 步骤 ， 例 如 重启 MySQL、 
改变 配置 和 预 热 服务 器 的 缓存 等 。 








在 很 多 人 的 概念 中 ， 恢 复 仅 意味 着 修 复 骨 温 后 损坏 的 表 。 这 与 恢复 
一 个 完整 的 服务 怖 是 不 同 的 。 存 储 引 擎 的 月 温 恢 复 要 求 数据 和 日 志文 件 
一 致 。 要 确保 数据 文件 中 只 包含 已 经 提交 的 事务 所 做 的 修改 ， 恢 复 操作 
会 将 日 志 中 还 没有 应 用 到 数据 文件 的 事务 重新 执行 。 这 也 许 是 恢复 过 程 
的 一 部 分 ， 甚 至 是 备份 的 一 部 分 。 然 而 ， 这 和 一 个 意外 的 DROP TABLE 
事故 后 需要 做 的 事 是 不 一 样 的 。 











15.1 为 什么 要 备份 
下 面 是 备份 非常 重要 的 几 个 理由 : 


灾难 恢复 





灾难 恢复 是 下 列 场 景 下 需要 做 的 事情 : 硬件 故障 、 一 个 不 经 意 
的 Bug 导 致 数据 损坏 ， 或 者 服务 器 及 其 数据 由 于 某 些 原因 不 可 获取 
或 无 法 使 用 等 。 你 需要 准备 好 应 付 很 多 问题 : 某 人 偶然 连 错 服务 器 
执行 了 一 个 ALTER _ TABLE 外 的 操作 ， 机 房 大 楼 被 烧毁 ， 恶 意 的 黑 
客 攻 击 或 MySQL 的 Bug 等 。 尽 管 遭 受 任何 一 个 特殊 的 灾难 的 几率 都 
非常 低 ， 但 所 有 的 风险 疤 加 在 一 起 就 很 有 可 能 会 碰 到 。 











人 们 改变 想法 





不 必 惊讶 ， 很 多 人 经 常会 在 删除 某 些 数据 后 又 想 要 恢复 这 些 数 





审计 


有 时 候 需 要 知道 数据 或 Schema 在 过 去 的 茶 个 时 间 点 是 什么 样 
的 。 例 如 ， 你 也 许 被 卷 入 一 场 法 律 官 司 ， 或 发 现 了 应 用 的 一 个 
Bug， 想 知道 这 段 代码 之 前 干 了 什么 《有 时 候 ， 仅 仅 依 靠 代 码 的 版 
本 控制 还 不 够 ) 。 


测试 








一 个 最 简单 的 基于 实际 数据 来 测试 的 方法 是 ， 定 期 用 最 新 的 生 
产 环境 数据 更 新 测试 服务 器 。 如 果 使 用 备份 的 方案 就 非常 简单 : 只 
要 把 备份 文件 还 原 到 测试 服务 器 上 即 可 。 检 查 你 的 假设 。 例 如 ， 你 
认为 共享 虚拟 主机 供应 商会 提供 MySQL 服 务 器 的 备份 ? 许多 主机 
供应 商 根 本 不 备份 MySQL 服 务 器 ， 男 外 一 些 也 仅仅 在 服务 器 运行 
时 复制 文件 ， 这 可 能 会 创建 一 个 损坏 的 没有 用 处 的 备份 。 





15.2 ”定义 恢复 需 》 


需要 
， 只 有 世界 上 最 好 的 备份 系统 是 没 用 的 ， 还 需要 一 个 强大 的 恢复 系 


统 。 


如 果 一 切 正 常 ， 那 么 永远 也 不 需要 考虑 恢复 。 但 是 ,一旦 需要 恢 





不 幸 的 是 ， 让 备份 系统 平滑 工作 比 构造 良好 的 恢复 过 程 和 工具 更 容 





。 原 因 如 下 : 





备份 在 先 。 只 有 已 经 做 了 备份 才 可 能 恢复 ， 因 此 在 构建 系统 时 ， 注 
意 力 目 然 会 集中 在 备份 上 。 

备份 由 脚本 和 任务 自动 完成 。 经 常 不 经 意 地 ， 我 们 会 花 些 时 间 调 优 
备份 过 程 。 花 5 分 钟 来 对 备份 过 程 做 小 的 调整 看 起 来 并 不 重要 ， 但 
是 你 是 否 天 天 同样 地 重视 恢复 呢 ? 

备份 是 日 肖 任 务 ， 但 恢复 常常 肥 生 在 危急 情形 下 。 

因为 安全 的 需要 ， 如 有 果 正 在 做 异地 备份 ， 可 能 需要 对 备份 数据 进行 
加 密 ， 或 采取 其 他 措施 来 进行 保护 。 安 全 性 往往 只 关注 数据 被 盗用 
的 后 果 ， 但 是 有 没有 人 想 过 ， 如 果 没 有 人 能 对 用 来 恢复 数据 的 加 密 
卷 解锁 ， 或 需要 从 一 个 整 块 的 加 密 文件 中 抽取 单个 文件 时 ， 损 害 又 
是 多 大 ? 

只 有 一 个 人 来 规划 、 设 计 和 实施 备份 。 当 灾难 黎 来 时 ， 那 个 人 可 能 
不 在 。 因 此 需要 培养 几 个 人 并 有 计划 地 互 为 备份 ， 这 样 就 不 会 要 求 
一 个 不 合格 的 人 来 恢复 数据 。 














这 里 有 一 个 我 们 看 到 的 真实 例子 : 一 个 客户 报告 说 当 mysqldqump 加 


上 -d 选 项 后 ， 备 份 变 得 像 内 电 一 般 快 ， 他 想 知道 为 什么 没有 一 个 人 提出 


该 选项 可 以 如 此 快 地 加 速 备份 过 程 。 如 果 这 个 客户 已 经 尝试 还 原 这 些 备 
份 ， 就 不 难 发 现 其 原因 : 使 用 -d 选 项 将 不 会 备份 数据 ! 这 个 客户 关注 备 
份 ， 却 没有 关注 恢复 ， 因 此 完全 没有 意识 到 这 个 问题 。 





规划 备份 和 恢复 策略 时 ， 有 两 个 重要 的 需求 可 以 帮助 思考 : 恢复 点 
目标 (PRO) 和 恢复 时 间 目 标 (RTO) 。 它 们 定义 了 可 以 容忍 丢失 多 少 
数据 ， 以 及 需要 等 待 多 久 将 数据 恢复 。 在 定义 RPO 和 RTO 时 ， 先 尝试 回 
答 下 面 几 类 问题 : 














。 在 不 导致 严重 后 果 的 情况 下 ， 可 以 容 妨 丢失 多 少数 据 ? 需要 故障 恢 
复 ， 还 是 可 以 接受 自从 上 次 日 弟 备 份 后 所 有 的 工作 全 部 丢失 ?是否 
有 法 律 法 规 的 要 求 ? 

。 恢复 需要 在 多 长 时 间 内 完成 ? 哪 种 类 型 的 宕 机 是 可 接受 的 ? 哪 种 影 
啊 《〈 例 如 ， 部 分 服务 不 可 用 ) 是 应 用 和 用 户 可 以 接受 的 ? 当 那 些 场 
景 发 生 时 ， 又 该 如 何 持 续 服 务 ? 

。 需要 恢复 什么 ? 向 见 的 需求 是 恢复 整个 服务 器 ， 单 个 数据 库 ， 单 个 
表 ， 或 仅仅 是 特定 的 事务 或 语句 。 











建议 将 上 面 这 些 问题 的 答案 明确 地 用 文档 记录 下 来 ， 同 时 还 应 该 明 
确 备份 策略 ， 以 及 备份 过 程 。 





备份 误区 1: “复制 就 是 备份 ” 


这 是 我 们 经 常 碰 到 的 一 个 误区 。 复 制 不 是 备份 ， 当 然 使 用 RAID 阵 
列 也 不 是 备份 。 为 什么 这 么 说 ?可 以 考虑 一 下 ， 如 果 意 外 地 在 生产 库 
上 执行 了 DROP ”DATABASE， 它 们 是 否 可 以 帮 你 恢复 所 有 的 数据 ? RAID 
和 复制 连 这 个 简单 的 测试 都 没 法 通过 。 它 们 不 是 备份 ， 也 不 是 备份 的 


替代 品 。 只 有 备份 才能 满足 备份 的 要 求 。 


15.3 ”设计 MIySQL 备 份 方案 


备份 MySQL 比 看 起 来 难 。 最 基本 的 ， 备 份 仅 是 数据 的 一 个 副本 ， 
但 是 受 限 于 应 用 程序 的 要 求 、MySQL 的 存储 引擎 架构 ， 以 及 系统 配置 
等 因素 ， 会 让 复制 一 份 数据 都 变 得 很 困难 。 


在 深入 所 有 选项 细节 之 前 ， 先 来 看 一 下 我 们 的 建议 : 





。 在 生产 实践 中 ， 对 于 大 数据 库 来 说 ， 物 理 备 份 是 必需 的 : 人 逻辑 备份 
太 慢 并 受到 资源 限制 ， 从 逻辑 备份 中 恢复 需要 很 长 时 间 。 基 于 快照 
的 备份 ， 例 如 Percona XtraBackup 和 MySQL Enterprise Backup 是 最 
好 的 选择 。 对 于 较 小 的 数据 库 ， 还 辑 备份 可 以 很 好 地 胜任 。 
保留 多 个 备份 集 。 

定期 从 还 辑 备 份 〈 或 者 物理 备份 ) 中 抽取 数据 进行 恢复 测试 。 

保存 二 进 制 日 志 以 用 于 基于 故障 时 间 点 的 恢复 。expire_logs_days 
参数 应 该 设置 得 足够 长 ， 至 少 可 以 从 最 近 两 次 物理 备份 中 做 基于 时 
间 点 的 恢复 ， 这 样 就 可 以 在 保持 主 库 运行 且 不 应 用 任何 二 进 制 日 志 
的 情况 下 创建 一 个 备 库 。 备 份 二 进 制 日 志 与 过 期 设置 无 关 ， 二 进 制 
日 志 备 份 需要 保存 足够 长 的 时 间 ， 以 便 能 从 最 近 的 逻辑 备份 进行 恢 














复 。 
。 完全 不 借助 备份 工具 本 身 来 监控 备份 和 备份 的 过 程 。 需 要 另外 验证 
RERE o 


通过 演练 整个 恢复 过 程 来 测试 备份 和 恢复 。 测 算 恢 复 所 需要 的 资源 
CCPU、 磁 盘 空 间 、 实 际 时 间 ， 以 及 网 络 带宽 等 ) 。 

对 安全 性 要 仔细 考虑 。 如 果 有 人 能 接触 生产 服务 器 ， 他 是 否 也 能 访 
问 备份 服务 器 ? 反 过 来 呢 ? 


弄 清楚 RPO 和 RITO 可 以 指导 备份 策略 。 是 需要 基于 故障 时 间 点 的 恢 
复 能 力 ， 还 是 从 昨 晚 的 备份 中 恢复 但 会 丢失 此 后 的 所 有 数据 就 足够 了 ? 
如 果 需 要 基于 故障 时 间 点 的 恢复 ， 可 能 要 建立 日 常备 份 并 保证 所 需要 的 
二 进 制 日 志 是 有 效 的 ， 这 样 才能 从 备份 中 还 原 ， 并 通过 重 放 二 进 制 日 志 
来 恢复 到 想 要 的 时 间 点 。 





一 般 说 来 ， 能 承受 的 数据 丢失 越 多 ， 备 份 越 们 单 。 如 果 有 非常 苛刻 
的 需求 ， 要 确保 能 恢复 所 有 数据 ， 备 份 束 很 困难 。 基 于 故障 时 间 扣 的 恢 
复 也 有 几 类 。 一 个 “宽松 ?的 故障 时 间 点 恢复 需求 意味 着 需要 重建 数据 ， 
直到 “足够 接近 ”问题 发 生 的 时 刻 。 一 个 “硬性 ?的 需求 意味 着 不 能 容忍 丢 
失 任何 一 个 已 提交 的 事务 ， 即 使 某 些 可 怕 的 事情 发 生 《〈 例 如 服务 器 痢 火 
了 ) 。 这 需要 特别 的 技术 ， 例 如 将 二 进 制 日 志保 存在 一 个 独立 的 SAN 卷 
或 使 用 DRBD 磁 盘 复 制 。 


15.3.1 ”在线 备份 还 是 离线 备份 


如 末 可 能 ， 关 闭 MySQL 做 备份 是 最 简单 最 安全 的 ， 也 是 所 有 获取 
一 致 性 副本 的 方法 中 最 好 的 ， 而 且 损 坏 或 不 一 致 的 风险 最 小 。 如 果 关 闭 
了 MySQL， 就 根本 不 用 关心 InnoDB 缓 冲 池 中 的 脏 页 或 其 他 缓存 。 也 不 
需要 担心 数据 在 尝试 备份 的 过 程 被 修改 ， 并 且 因 为 服务 器 不 对 应 用 提供 
访问 ， 所 以 可 以 更 快 地 完成 备份 。 




















尽管 如 此 ， 让 服务 器 停机 的 代价 可 能 比 看 起 来 要 更 昂贵 。 即 使 能 最 
小 化 停机 时 间 ， 在 高 负载 和 高 数据 量 下 关闭 和 重 司 MYSQL 也 可 能 要 伦 
很 长 一 段 时 间 ， 这 在 第 8 章 中 讨论 过 。 我 们 演示 过 一 些 使 这 个 影响 最 小 
化 的 技术 ， 但 并 不 能 将 其 减少 为 零 。 因 此 ， 必 须要 设计 不 需要 生产 服务 
器 停机 的 备份 。 即 便 如 此 ， 由 于 一 致 性 的 需要 ， 对 服务 器 进行 在 线 备 份 








仍然 会 有 明显 的 服务 中 断 。 


在 众多 的 备份 方法 中 ， 一 个 最 大 问题 就 是 它们 会 使 用 FLUSH TABLES 
WITH ”READ LOCK 操作 。 这 会 导致 MySQL 关 闭 并 锁 住 所 有 的 表 ， 将 
MyISAM 的 数据 文件 刷新 到 磁盘 上 “(但 InnoDB 不 是 这 样 的 ! ) ， 并 且 刷 
新 查询 缓存 。 该 操作 需要 非常 长 的 时 间 来 完成 。 具 体 需 要 多 长 时 间 是 不 
可 预 估 的 ; 如 果 全 局 读 锁 要 等 待 一 个 长 时 间 运 行 的 语句 完成 ， 或 有 许多 
表 ， 那 么 时 间 会 更 长 。 除 非 锁 被 释放 ， 否 则 就 不 能 在 服务 器 上 更 改 任何 
数据 ， 一 切 都 会 被 阻塞 和 积压 外。FLUSH TABLES WITH READ LOCK 不 像 
关闭 服务 器 的 代价 那么 高 ， 因 为 大 部 分 缓存 仍然 在 内 存 中 ， 并 且 服 务 器 
一 直 是 “ 预 热 " 的 ， 但 是 它 也 有 非常 大 的 破坏 性 。 如 果 有 人 说 这 样 做 很 
快 ， 可 能 是 准备 问 你 推销 某 种 从 来 没有 在 真正 的 线 上 服务 器 上 运行 过 的 
AR DG 














避免 使 用 FLUSH TABLES WITH READ LOCK 的 最 好 的 方法 是 只 使 用 
InnoDB 表 。 在 权限 和 其 他 系统 信息 表 中 使 用 MyISAM 表 是 不 可 避免 的 ， 
但 是 如 有 果 数 据 改 变量 很 少 《〈 正 第 情况 下 ) ， 你 可 以 只 刷新 和 锁 住 这 些 
表 ， 这 不 会 有 什么 问题 。 


在 规划 备份 时 ， 有 一 些 与 性 能 相关 的 因素 需要 考虑 。 


锁 时 间 





需要 持 有 锁 多 长 时 间 ， 例 如 在 备份 期 间 持 有 的 全 局 FLUSH 
TABLES WITH READ LOCK? 


备份 时 间 
复制 备份 到 目的 地 需要 多 久 ? 


在 复制 备份 到 目的 地 时 对 服务 器 性 能 的 影响 有 多 少 ? 
恢复 时 间 


把 备份 镜像 从 存储 位 置 复制 到 MySQL 服 务 器 ， 重 放 二 进 制 日 


志 等 ， 需 要 多 久 ? 


最 大 的 权衡 是 备份 时 间 与 备份 负载 。 可 以 牺牲 其 一 以 增强 男 外 一 
个 。 例 如 ， 可 以 提高 备份 的 优先 级 ， 代 价 是 降低 服务 需 性 能 。 


同样 ， 也 可 以 利用 负载 的 特性 来 设计 和 备份。 例如， 如果 服务 器 在 晚 
上 上 的 8 小 时 内 仅仅 有 50%% 的 负载 ， 那 么 可 以 答 试 规划 备份 ， 使 得 服务 器 
的 负载 低 于 50%% 且 仍 能 在 8 小 时 内 完成 。 可 以 采用 许多 方法 来 完成 这 个 
目标 ， 例 如 ， 可 以 用 ionice 和 mice 来 提高 复制 或 压缩 操作 的 优先 级 ， 使 用 
不 同 的 压缩 等 级 ， 或 在 备份 服务 器 上 压缩 而 不 是 在 MySQL 服 务 器 上 。 
甚至 可 以 利用 1zo 或 pigz 以 获取 更 快 的 压缩 。 也 可 以 使 用 0_DIRECT 
或 fadvise 0 在 复制 操作 时 绕 开 操作 系统 的 缓存 ， 以 避免 污染 服务 器 的 
缓存 。 像 Percona XtraBackup 和 MySQIL Enterprise Backup 这 样 的 工具 都 
有 限 流 选项 ， 可 在 使 用 pv 时 加 --rate-limit 选 项 来 限制 备份 脚本 的 吞吐 


里 。 





15.3.2 ”逻辑 备份 还 是 物理 备份 


有 两 种 主要 的 方法 来 备份 MySQL 数 据 : 逻辑 备份 “也 叫 “ 导 出 ”) 和 
直接 复制 原始 文件 的 物理 备份 。 逻 辑 备份 将 数据 包含 在 一 种 MySQL 能 


够 解析 的 格式 中 ， 要 么 是 SQL， 要 么 是 以 某 个 符号 分 隔 的 文本 饵 。 原 始 








文件 是 指 存在 于 硬盘 上 的 文件 。 


任何 一 种 备份 都 有 其 优点 和 缺点 。 


A 


BHANA FRA: 


逻辑 备份 是 可 以 用 编辑 器 或 像 grep 和 sed 之 类 的 命令 查看 和 操作 的 普 
通 文件 。 当 需要 恢复 数据 或 只 想 碍 看 数据 但 不 恢复 时 ， 这 都 非常 有 
帮助 。 

恢复 非常 简单 。 可 以 通过 管道 把 它们 输入 到 mysq1， 或 者 使 

用 mysqlimport。 

可 以 通过 网 络 来 备份 和 恢复 一 一 就 是 说 ， 可 以 在 与 MySQL 主 机 不 
同 的 另外 一 台 机 器 上 操作 。 

可 以 在 类 似 Amazon ”RDS 这 样 不 能 访问 底层 文件 系统 的 系统 中 使 
用 。 

非常 灵活 ， 因 为 mysqldump 一 一 大 部 分 人 喜欢 的 工具 可 以 接受 
许多 选项 ， 例 如 可 以 用 WHERE 子 句 来 限制 需要 备份 哪些 行 。 

与 存储 引擎 无 关 。 因 为 是 从 MySQL 服 务 器 中 提取 数据 而 生成 ， 所 
以 消除 了 底层 数据 存储 和 不 同 。 因 此 ， 可 以 从 InnoDB 表 中 备份 ， 
然后 只 需 极 小 的 工作 量 就 可 以 还 原 到 MyISAM 表 中 。 而 对 于 原始 数 
据 却 不 能 这 么 做 。 

有 助 于 避免 数据 损坏 。 如 果 磁 盘 驱 动 器 有 故障 而 要 复制 原始 文件 
时 ， 你 将 会 得 到 一 个 错误 并 且 / 或 生成 一 个 部 分 或 损坏 的 备份 。 如 
果 MySQL 在 内 存 中 的 数据 还 没有 损坏 ， 当 不 能 得 到 一 个 正常 的 原 


























台 文 件 复制 时 ， 有 时 可 以 得 到 一 个 可 以 信赖 的 逻辑 备份 。 
KEW, WF OMA AOR A: 


必须 由 数据 库 服 务 器 完成 生成 逻辑 备份 的 工作 ， 因 此 要 使 用 更 多 的 
CPU 周 期 。 

逻辑 备份 在 某 些 场 景 下 比 数据 库 文件 本 身 更 大 多。ASCII 形 式 的 数 
据 不 总 是 和 存储 引擎 存储 数据 一 样 高 效 。 例 如 ， 一 个 整 型 需要 4 字 
节 来 存储 ， 但 是 用 ASCII 写 入 时 ， 可 能 需要 12 个 字符 。 当 然 也 可 以 
压缩 文件 以 得 到 一 个 更 小 的 备份 文件 ， 但 这 样 会 使 用 更 多 的 CPU 资 
源 。《〈 如 有 果 索 引 比较 多 ， 逻 辑 备 份 一 般 要 比 物理 备份 小 。) 

无 法 保证 导出 后 再 还 原 出 来 的 一 定 是 同样 的 数据 。 浮 点 表示 的 问 
题 、 软 件 Bug 等 都 会 导致 问题 ， 尽 管 非常 少见 。 

从 逻辑 备份 中 还 原 需 要 MySQL 加 载 和 解释 语句 ， 转 化 为 存储 格 
式 ， 并 重建 索引 ， 所 有 这 一 切 会 很 慢 。 














最 大 的 缺点 是 从 MySQL 中 导出 数据 和 通过 SQL 语句 将 其 加 载 回去 的 
开销 。 如 采 使 用 逻辑 备份 ， 测 试 恢 复 需 要 的 时 间 将 非常 重要 。 


Percona Server 中 包含 的 mysqldump， 在 使 用 InnoDB 表 时 能 起 到 帮助 
作用 ， 因 为 它 会 对 输出 格式 化 ， 以 便 在 重新 加 载 时 利用 InnoDB 的 快速 
建 索引 的 优点 。 我 们 的 测试 显示 这 样 做 可 以 减少 2/3 甚 至 更 多 的 还 原 时 
Ee RIRE, WANEH T o 





物理 备份 


物理 备份 有 如 下 好 处 : 


份 ， 


少 每 隔 一 段 时 间 还 是 需要 做 一 次 逻辑 备份 。 





基于 文件 的 物理 备份 ， 只 需要 将 需要 的 文件 复制 到 其 他 地 方 即 可 完 
成 备份 。 不 需要 其 他 额外 的 工作 来 生成 原始 文件 。 

物理 备份 的 恢复 可 能 就 更 简单 了 ， 这 取决 于 存储 引擎 。 对 于 
MyISAM， 只 需要 简单 地 复制 文件 到 目的 地 即 可 。 对 于 InnoDB 则 需 
要 停止 数据 库 服 务 ， 可 能 还 要 采取 其 他 一 些 步 又 。 

InnoDB 和 MyISAM 的 物理 备份 非常 容易 跨 平 台 、 操 作 系 统 和 
MySQL 版 本 。 (〈 逮 辑 导出 亦 如 此 。 这 里 特别 指出 这 一 点 是 为 了 消 
除 大 家 的 担心 。) 

从 物理 备份 中 恢复 会 更 快 ， 因 为 MySQL 服 务 器 不 需要 执行 任何 SQL 
或 构建 索引 。 如 果 有 很 大 的 InnoDB 表 ， 无 法 完全 缓存 到 内 存 中 ， 
则 物理 备份 的 恢复 要 快 非常 多 一 一 至 少 要 快 一 个 数量 级 。 事 实 上 ， 
逻辑 备份 最 可 怕 的 地 方 就 是 不 确定 的 还 原 时 间 。 











WERDERA HRA, EU: 


InnoDB 的 原始 文件 通常 比 相应 的 逻辑 备份 要 大 得 多 。InnoDB 的 表 
空间 往往 包含 很 多 未 使 用 的 空间 。 还 有 很 多 空间 被 用 来 做 存储 数据 
以 外 的 用 途 〈 插 入 缓冲 ， 回 滚 段 等 ) 。 

物理 备份 不 总 是 可 以 跨 平 台 、 操 作 系 统 及 MySQL 版 本 。 文 件 名 大 
小 写 敏感 和 浮 点 格式 是 可 能 会 遇 到 有 麻烦。 很 可 能 因 浮 点 格式 不 同 而 
不 能 移动 文件 到 男 一 个 系统 (虽然 主流 处 理 器 都 使 用 IEEE 浮 点 格 
Fue. 2 
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或 者 是 满足 法 律 合 规 要 求 的 备份 ， 尺 量 不 要 完全 依赖 物理 备份 。 至 


除非 经 过 测试 ， 不 要 假定 备份 〈 特 别 是 物理 备份 ) 是 正常 的 。 对 








InnoDB 来 说 ， 这 意味 着 需要 局 动 一 个 MYSQL 实例 ， 执 行 InnoDB 恢 复 操 
作 ， 然 后 运行 CHECK ”TABLES。 也 可 以 路 过 这 一 操作 ， 仅 对 文件 运 
行 innochecksum， 但 我 们 不 建议 这 样 做 。 对 于 MyISAM， 可 以 运行 CHECK 
TABLES， 或 者 使 用 mysqlcheck。 使 用 mysqlcheck 可 以 对 所 有 的 表 执 

行 CHECK TABLES 操 作 。 





建议 混合 使 用 物理 和 逻辑 两 种 方式 来 做 备份 : 先 使 用 物理 复制 ， 以 
此 数据 启动 MySQL 服 务 器 实例 并 运行 mysqlcheck。 然 后， 周期 性 地 使 
用 mysqldump 执 行 逻 辑 备 份 。 这 样 做 可 以 获得 两 种 方法 的 优点 ， 不 会 使 
生产 服务 器 在 导出 时 有 过 度 负 担 。 如 果 能 够 方便 地 利用 文件 系统 的 快 
照 ， 也 可 以 生成 一 个 快照 ， 将 该 快照 复制 到 另外 一 个 服务 器 上 并 释放 ， 
然后 测试 原始 文件 ， 再 执行 还 辑 备 份 。 


15.3.3 备份 什么 


恢复 的 需求 决定 需要 备份 什么 。 最 简单 的 策略 是 只 备份 数据 和 表征 
义 ， 但 这 是 一 个 最 低 的 要 求 。 在 生产 环境 中 恢复 数据 库 一 般 需 要 更 多 的 
工作 。 下 面 是 MySQL 备 份 需要 考虑 的 几 点 。 








非 显著 数据 


不 要 起 记 那 些 容易 被 忽略 的 数据 : 人 例如， 二进制 日 志和 
InnoDB 事 务 日 志 。 


代码 


现代 的 MySQL 服 务 器 可 以 存储 许多 代码 ， 例 如 触发 器 和 存储 


过 程 。 如 果 备 份 了 mysq1l 数 据 库 ， 那 么 大 部 分 这 类 代码 也 备份 了 ， 
但 如 末 需 要 还 原单 个 业务 数据 库 会 比较 抹 烦 ， 因 为 这 个 数据 库 中 的 
部 分 “数据 *， 例 如 存储 过 程 ， 实 际 是 存放 在 mysq1 数 据 库 中 的 。 





复制 配置 


如 果 恢 复 一 个 涉及 复制 天 系 的 服务 器 ， 应 该 备份 所 有 与 复制 相 
关 的 文件 ， 例 如 三 进 制 日 志 、 中 继 日 志 、 日志 索引 文件 和 .info 文 
件 。 至 少 应 该 包含 SHOW MASTER STATUS 和 /或 SHOW SLAVE STATUS 的 
输出 。 执 行 FLUSH “L0GS 也 非常 有 好 处 ， 可 以 让 MySQL 从 一 个 新 的 
二 进 制 日 志 开始 。 从 日 志文 件 的 开头 做 基于 故障 时 间 点 的 恢复 要 比 
从 中 间 更 容易 。 


服务 器 配置 


假设 要 从 一 个 实际 的 灾难 中 恢复 ， 比 如 说 ， gn 
数据 中 心中 构建 服务 器 ， 如 宁 备 份 中 包含 服务 器 配置 ， 你 一 
出 望 外 。 


选 定 的 操作 系统 文件 


对 于 服务 器 配置 来 说 ， 和 备份 中 对 生产 服务 器 至 关 重 要 的 任何 外 
部 配置 ， 都 十 分 重要 。 在 UNIX 服 务 器 上 ， 这 可 能 包括 cron 任 务 、 
用 户 和 组 的 配置 、 管 理 脚本 ， 以 及 sudo 规 则 。 





这 些 建议 在 许多 场景 下 会 iene 然而 ， 如 果 有 大 量 的 
数据 ， 这 样 做 的 开销 将 非常 高 ， 如 何 做 备份 ， 需 要 更 加 明智 的 考虑 。 特 
别 是 ， 可 能 需要 在 不 同 备份 中 备份 不 同 的 数据 ， 例如 ， 可 以 单独 地 备份 
数据 、 二 进 制 日 志和 操作 系统 及 系统 配置 。 








增 量 备份 和 差异 备份 





当 数 据 量 很 庞大 时 ， 一 个 常见 的 生 略 是 做 定期 的 增 量 或 差异 备份 。 
它们 之 间 的 区 别 有 点 容易 让 人 混 消 ， 所 以 先 来 澄清 这 两 个 术语 : Ze eh 
份 是 对 目 上 次 全 备份 后 所 有 改变 的 部 分 而 做 的 备份 ， 而 增 量 备份 则 是 目 
从 任意 类 型 的 上 次 备份 后 所 有 修改 做 的 备份 。 





例如 ， 假 如 在 每 周 日 做 一 个 全 备份 。 在 周一 ， 对 自 周 日 以 来 所 有 的 
改变 做 一 个 差异 备份 。 在 周二 ， 殊 有 两 个 选择 : 备份 目 周 日 以 来 所 有 的 
ME CE) ， 或 只 备份 自从 周一 备份 后 所 有 的 改变 〈 增 量 〉。 








增 量 和 差异 备份 都 是 部 分 备份 : 它们 一 般 不 包含 完整 的 数据 集 ， 
为 某 些 数据 几乎 肯定 没有 改变 。 部 分 备份 对 减少 服务 器 开销 、 备 份 时 间 
及 备份 空间 而 言 都 很 适合 。 尽 管 某 些 部 分 备份 并 不 会 真正 减少 服务 器 的 
开销 。 例 如 ，Percona XtraBackup 和 和 MySQL Enterprise Backup， 仍 然 会 
扫 摘 服务 器 上 的 所 有 数据 块 ， 因 而 并 不 会 节约 太 多 的 开销 ， 但 它们 确实 
会 减少 一 定量 的 备份 时 间 和 大 量 用 于 压缩 的 CPU 时 间 ， 当 然 也 会 减少 磁 
盘 空 间 使 用 久 。 





不 要 因为 会 用 高 级 备份 技术 而 目 负 ， 解 决 方案 越 复 末 ， 可 能 面临 的 
风险 也 越 大 。 要 注意 分 析 隐 藏 的 危险 ， 如 果 多 次 友 代 备份 紧密 地 耦合 在 
一 起 ， 则 只 要 其 中 的 一 次 达 代 备份 有 损坏 ， 就 可 能 会 叶 致 所 有 的 备份 都 
无 效 。 


e 使 用 Percona XtraBackup 和 和 MySQL Enterprise Backup 中 的 增 量 备份 


特性 。 


e 备份 二 进 制 日 志 。 可 以 在 每 次 备份 后 使 用 FLUSH L0GS 来 开始 一 个 新 
的 二 进 制 日 志 ， 这 样 就 上 只 需要 备份 新 的 二 进 制 日 志 。 

不 要 备份 没有 改变 的 表 。 有 些 存储 引擎 ， 例 如 MyISAM， 会 记录 每 
个 表 最 后 修改 时 间 。 可 以 通过 查看 磁盘 上 的 文件 或 运行 SHOW TABLE 
STATUS 来 看 这 个 时 间 。 如 果 使 用 InnoDB， 可 以 利用 触发 器 记录 修 
改 时 间 到 一 个 小 的 “最 后 修改 时 间 ” 表 中 ， 帮 助 跟 踊 最 新 的 修改 操 
作 。 需 要 确保 只 对 变更 不 频繁 的 表 进 行 跟踪 ， 这 样 才 能 降低 开销 。 
通过 定制 的 备份 脚本 可 以 轻松 获取 到 哪些 表 有 变更 。 

例如 ， 如 果 有 包含 不 同 语种 各 个 月 的 名 称 列 表 ， 或 者 州 或 区 域 的 简 
写 之 类 的 “查找” 表 ， 将 它们 放 在 一 个 单独 的 数据 库 中 是 个 好 主意 ， 
这 样 就 不 需要 每 次 都 备份 这 些 表 。 

不 要 备份 没有 改变 的 行 。 如 果 一 个 表 只 做 插入 ， 例 如 记录 网 页 页 面 
点 击 的 表 ， 那 么 可 以 增加 一 个 时 间 惟 的 列 ， 然 后 只 备份 自 上 次 备份 
后 插入 的 行 。 

某 些 数据 根本 不 需要 备份 。 有 时 候 这 样 做 影响 会 很 大 一 一 例如 ， 如 
果 有 一 个 从 其 他 数据 构建 的 数据 仓库 ， 从 技术 上 讲 完全 是 元 余 的 ， 
就 可 以 仅 备 份 构建 仓库 的 数据 ， 而 不 是 数据 仓库 本 身 。 即 使 从 源 数 
据 文件 重建 仓库 的 “恢复 "时 间 较 长 ， 这 也 是 个 好 想法 。 相 对 于 从 全 
备 中 可 能 获得 的 快速 恢复 时 间 ， 避 免 备 份 可 以 节约 更 多 的 总 的 时 间 
开销 。 临 时 数据 也 可 以 不 用 备份 ， 例 如 保留 网 站 会 话 数 据 的 表 。 
备份 所 有 的 数据 ， 然 后 发 送 到 一 个 有 去 重 特性 的 目的 地 ， 例 如 ZEFS 
文件 管理 程序 。 
































增 量 备份 的 缺点 包括 增加 恢复 复杂 性 ， 额 外 的 风险 ， 以 及 更 长 的 恢 
复 时 间 。 如 果 可 以 做 全 备 ， 考 虑 到 简便 性 ， 我 们 建议 尽量 做 全 备 。 





不 管 如 何 ， 还 是 需要 经 党 做 全 备份 一 一 建议 至 少 一 周一 次 。 你 肯定 





不 会 布 望 使 用 一 个 月 的 所 有 增 量 备份 来 进行 恢复 。 即 使 一 周 也 还 是 有 很 
多 的 工作 和 风险 的 。 


15.3.4 存储 引擎 和 一 致 性 


MySQL 对 存储 引擎 的 选择 会 导致 备份 明显 更 复杂 。 问 题 是 ， 对 于 
给 定 的 存储 引擎 ， 如 何 得 到 一 致 的 备份 。 


实际 上 有 两 类 一 致 性 需要 考虑 ， 数 据 一 致 性 和 文件 一 致 性 。 


数据 一 致 性 





当 备 份 时 ， 应 该 考虑 是 否 需 要 数据 在 指定 时 间 扣 一 至。 例如 ， 在 一 
个 电子 商务 数据 库 中 ， 可 能 需要 确保 太 货 早 和 付 球 之 间 一 臻 。 恢 复 付 球 
时 如 宋 不 考虑 相应 的 发 货 单 ， 或 反 过 来 ， 都 会 导致 及 烦 。 





如 宁 做 在 线 备份 《从 一 个 运行 的 服务 器 做 备份 ) ， 可 能 需要 所 有 相 
天 表 的 一 致 性 备份 。 这 意味 着 不 能 一 次 锁 住 一 张 表 然 后 做 备份 一 一 因而 
意味 着 备份 可 能 比 预想 的 要 更 有 侵入 性 。 如 果 使 用 的 不 是 事务 型 存储 引 
擎 ， 则 只 能 在 备份 时 用 LOCK ”TABLES 来 锁 住 所 有 要 一 起 备份 的 表 ， 备 份 
完成 后 再 释放 锁 。 


InnoDB 的 多 版 本 控制 功能 可 以 帮 到 我 们 。 开 始 一 个 事务 ， 转 储 一 
组 相关 的 表 ， 然 后 提交 事务 。 (如 果 使 用 了 事务 获取 一 致 性 备份 ， 则 不 
能 用 LOCK ”TABLES， 因 为 它 会 隐 式 地 提交 事务 一 一 详情 参见 MySQL 手 
册 。) 只 要 在 服务 器 上 使 用 REPEATABLE READ 事务 隅 离 级 别 ， 并 且 没 有 
任何 DDL， 就 一 定 会 有 完美 的 一 致 性 ， 以 及 基于 时 间 点 的 数据 快照 ， 且 











在 备份 过 程 中 不 会 阻塞 任何 后 续 的 工作 。 


尽管 如 此 ， 这 种 方法 并 不 能 保护 逻辑 设计 很 兰 的 应 用 。 假 如 在 电子 
商务 库 中 插入 一 条 付 球 记 录 ， 提 交 事 务 ， 然 后 在 男 外 一 个 事务 中 插入 一 
条 发 货 单 记录 。 备 份 过 程 可 能 在 这 两 个 操作 之 间 开 始 ， 备 份 了 付 球 记 录 
却 不 包括 发 货 单 记录 。 这 就 是 必须 仔细 设计 事务 以 确保 相关 的 操作 放 在 
一 个 组 内 的 原因 。 





也 可 以 用 mysqldump 来 获得 InnoDB 表 的 一 致 性 逻辑 备份 ， 采 用 -- 
single-transaction 选 项 可 以 按照 我 们 所 描述 的 那样 工作 。 但 是 ， 这 可 能 
会 导致 一 个 非常 长 的 事务 ， 在 某 些 负载 下 会 导致 开销 大 到 不 可 接受 。 


BE = EE 


每 个 文件 的 内 部 一 致 性 也 非常 重要 一 一 例如 ， 一 条 大 的 UPDATE 语 句 
执行 时 备份 反映 不 出 文件 的 状态 一 一 并 且 所 有 要 备份 的 文件 相互 间 也 应 
一 致 。 如 果 没 有 内 部 一 致 的 文件 ， 还 原 时 可 能 会 感到 惊讶 〈 它 们 可 能 
经 损坏 ) 。 如 果 是 在 不 同 的 时 间 复 制 相 关 的 文件 ， 它 们 彼此 可 能 也 不 一 
致 。MyISAM 的 .MYD 和 .MYI 文 件 就 是 个 例子 。InnoDB 如 果 检 测 到 不 一 
致 或 损坏 ， 会 记录 错误 日 志 乃 至 让 服务 器 月 省 。 








对 于 非 事 务 性 存储 引擎 ， 例 如 MyISAM， 可 能 的 选项 是 锁 住 并 刷新 
表 。 这 意味 着 要 么 用 LOCK TABLES 和 FLUSH TABLES 结 合 的 方法 以 使 服务 
器 将 内 存 中 的 变更 刷 到 磁盘 上 ， 要 么 用 FLUSH TABLES WITH READ 
LOCK. 一旦 刷新 完成 ， 就 可 以 安全 地 复制 MyISAM 的 原始 文件 。 





对 于 InnoDB， 确 保 文 件 在 磁盘 上 一 致 更 困难 。 即 使 使 用 FLUSH 
TABLES WITH READ LOCK，InnoDB 依 旧 在 后 台 运 行 : 插入 缓存 、 日 志和 





写 线 程 继续 将 变更 合并 到 日 志和 表 空 间 文 件 中 。 这 些 线程 设计 上 是 异步 
的 一 一 在 后 台 执 行 这 些 工作 可 以 帮助 InnoDB 取 得 更 高 的 并 发 性 一 一 下 

因为 如 此 它们 与 LOCK ”TABLES 无 关 。 因 此 ， 不 仅 需 要 确保 每 个 文件 内 部 
是 一 致 的 ， 还 需要 同时 复制 同一 个 时 间 点 的 日 志和 表 空 间 文 件 。 如 果 在 
备份 时 有 其 他 线程 在 修改 文件 ， 或 在 与 表 空 间 文 件 不 同 的 时 间 点 备份 日 
志文 件 ， 会 在 恢复 后 再 次 因 系 统 损坏 而 告终 。 可 以 通过 下 面 几 个 方法 规 
避 这 个 问题 。 











等 待 直到 InnoDB 的 清除 线程 和 插入 缓冲 合并 线程 完成 。 可 以 观察 
SHOW INNODB STATUS 的 输出 ， 当 没有 脏 缓存 或 挂 起 的 写 时 ， 就 可 以 
复制 文件 。 尽 管 如 此 ， 这 种 方法 可 能 需要 很 长 一 段 时 间 ; 因为 
InnoDB 的 后 台 线 程 涉及 太 多 的 干扰 而 不 太 安 全 。 所 以 我 们 不 推荐 
这 种 方法 。 

在 一 个 类 似 LVM 的 系统 中 获取 数据 和 日 志文 件 一 致 的 快照 ， 必 须 
让 数据 和 日 志文 件 在 快照 时 相互 一 致 ， 单独 取 它 们 的 快照 是 没有 意 
义 的 。 在 本 章 后 续 的 LVM 快 照 中 会 讨论 。 

发 送 一 个 STOP 信 号 给 MySQL， 做 备份 ， 然 后 再 发 送 一 个 CONT 信 号 
来 再 次 唤醒 MySQL。 看 起 来 像 是 一 个 很 少 推荐 的 方法 ， 但 如 果 另 
外 一 种 方法 是 在 备份 过 程 中 需要 关闭 服务 器 ， 则 这 种 方法 值得 考 
虑 。 至 少 这 种 技术 不 需要 在 重启 服务 器 后 预 热 。 











在 复制 数据 文件 到 其 他 地 方 后 ， 束 可 以 释放 锁 以 使 MySQL 服 务 器 
再 次 正常 运行 。 





复制 





从 备 库 中 备份 最 大 的 好 处 是 可 以 不 干扰 主 库 ， 避 人 免 在 主 库 上 增加 额 


外 的 负载 。 这 是 一 个 建立 备 库 的 好 理由 ， 即 使 不 需要 用 它 做 负载 均衡 或 
高 可 用 。 如 果 钱 是 个 问题 ， 也 可 以 把 备份 用 的 备 库 用 于 其 他 用 途 ， 例 如 
报表 服务 一 一 只 要 不 对 其 做 写 操作 ， 以 确保 备份 时 不 会 修改 数据 。 备 库 
不 必 只 用 于 备份 的 目的 ; 只 需要 在 下 次 备份 时 能 及 时 跟 上 主 库 ， 即 使 有 
时 因 作 为 其 他 用 途 导致 复制 延 时 也 没有 关系 。 











当 从 备 库 备份 时 ， 应 该 保存 所 有 关于 复制 进程 的 信息 ， 例 如 备 库 相 
对 于 主 库 的 位 置 。 这 对 于 很 多 情况 都 非常 有 用 : 殉 隆 新 的 备 库 ， 重 新 应 
用 二 进 制 日 志 到 主 库 上 以 获得 指定 时 间 点 的 恢复 ， 将 备 库 提升 为 主 库 
等 。 如 采 停 止 备 库 ， 需 要 确保 没有 打开 的 临时 表 ， 因 为 它们 可 能 导致 不 
能 重 局 备 库 。 





故意 将 一 个 备 库 延 时 一 段 时 间 对 于 某 些 灾难 场景 非常 有 用 。 例 如 延 
时 复制 一 小 时 ， 当 一 个 不 期 望 的 语句 在 主 库 上 运行 后 ， 将 有 一 个 小 时 的 
时 间 观 察 到 并 在 从 中 继 日 志 重 放 之 前 停 掉 复制 。 然 后 可 以 将 备 库 提 升 为 
主 库 ， 重 放 少 量 相 关 的 日 志 事 件 ， 跳 过 错误 的 语句 。 这 比 我 们 后 面 将 要 
讨论 的 指定 时 间 点 的 恢复 技术 可 能 要 快 很 多 。Percona Toolkit 中 pt-slave- 
delay 工 具 可 以 帮助 实现 这 个 方案 。 
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(CR 各 库 可 能 与 主 库 数据 不 完全 一 样 。 许 多 人 认为 备 库 是 主 库 完全 一 样 的 副本 ， 但 以 
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我 们 的 经 验 ， 主 库 与 备 库 数据 不 匹配 是 很 常见 的 ， 并 且 MySQL 没 有 方法 检测 这 个 问题 。 检 测 


个 问题 的 唯一 方法 是 使 用 Percona Toolkit 中 的 pt-table-checksum 之 类 的 工具 。 



































拥有 一 个 复制 的 备 库 可 能 在 诸如 主 库 的 硬盘 烧 坏 时 提供 帮助 ， 但 却 不 能 提供 保证 。 复 制 不 
是 备份 。 














15.4 Seah ell AS 


服务 器 的 二 进 制 日 志和 是 备份 的 最 重要 因 系 之 一 。 它 们 对 于 基于 时 间 
点 的 恢复 是 必需 的 ， 并 且 通 常 比 数据 要 小 ， 所 以 更 容易 进行 频 楷 的 备 
份 。 如 果 有 茶 个 时 间 扣 的 数据 备份 和 所 有 从 那 时 以 后 的 三 进 制 日 志 ， 残 
可 以 重 放 自从 上 次 全 备 以 来 的 二 进 制 日 志 并 “前 滚 ? 所 有 的 变更 。 














MySQL 复 制 也 使 用 二 进 制 日 志 。 因 此 备份 和 恢复 的 策略 经 常 和 复 
制 配 置 相互 影响 。 


二 进 制 日 志 很 “特别 ”。 如 果 丢 失 了 数据 ， 你 一 定 不 希望 同时 丢失 了 
二 进 制 日 志 。 为 了 让 这 种 情况 发 生 的 几率 减少 到 最 小 ， 可 以 在 不 同 的 卷 
上 保存 数据 和 二 进 制 日 志 。 即 使 在 LVM 下 生成 二 进 制 日 志 的 快照 ， 也 
是 可 以 的 。 为 了 额外 的 安全 起 见 ， 可 以 将 它们 保存 在 SAN 上， 或 用 
DRBD 复 制 到 另外 一 个 设备 上 。 





经 常备 份 二 进 制 日 志 是 个 好 主意 。 如 果 不 能 承受 丢失 超过 30 分 钟 数 
据 的 价值 ， 人 至 少 要 每 30 分 钟 就 备份 一 次 。 也 可 以 用 一 个 配置 -- 
log_slave_update 的 只 读 备 库 ， 这 样 可 以 获得 额外 的 安全 性 。 备 库 上 日 志 
位 置 与 主 库 不 匹配 ， 但 找到 恢复 时 正确 的 位 置 并 不 难 。 最 后 ，MYySQL 
5.6 版 本 的 mysqlbinlog 有 一 个 非常 方便 的 特性 ， 可 连接 到 服务 器 上 来 实时 
对 二 进 制 日 志 做 镜像 ， 比 起 运行 一 个 mysqld 实 例 要 简单 和 轻便 。 它 与 老 
版 本 是 回 后 兼容 的 。 








请 参考 第 8 章 和 第 10 章 中 我 们 推荐 的 关于 二 进 制 日 志 的 服务 器 配 
置 。 


15.4.1 — Ht] A AR zh 


二 进 制 日 志 包含 一 系列 的 事件 。 每 个 事件 有 一 个 固定 长 度 的 头 ， 其 





中 有 各 种 信息 ， 例 如 当前 时 间 惟 和 默认 的 数据 库 。 可 以 使 用 mysqlbinlog 
工具 来 得 看 二 进 制 日 志 的 内 容 ， 打 印 出 一 些 头 信息 。 下 面 是 一 个 输出 的 
例子 。 


1 # at 277 

2 #071030 10:47:21 server id 3 end_log_pos 369 Query thread_i 
error_code=0 

3 SET TIMESTAMP=1193755641/* !*/; 


4 insert into test(a) values(2)/*!*/; 
第 一 行 包含 日 志文 件 内 的 偏 移 字 节 值 (本 例 中 为 277〉。 


事件 的 日 期 和 时 间 ，MySQL 会 使 用 它们 来 产生 SET TIMESTAMPS 
fijo 

原 服务 器 的 服务 器 ID， 对 于 防止 复制 之 间 无 限 循 环 和 其 他 问题 是 非 
和 常 有 必要 的 。 

end_log_pos， 下 一 个 事件 的 偏 移 字 节 值 。 该 值 对 一 个 多 语句 事务 
中 的 大 部 分 事件 是 不 正确 的 。 在 此 类 事务 过 程 中 ，MySQL 的 主 库 
会 复制 事件 到 一 个 缓冲 区 ， 但 这 样 做 的 时 候 它 并 不 知道 下 个 日 志 事 
件 的 位 置 。 

事件 类 型 。 本 例 中 的 类 型 是 Query， 但 还 有 许多 不 同 的 类 型 。 

原 服务 器 上 执行 事件 的 线程 ID， 对 于 审计 和 执行 CONNECTION_1D () 





函数 很 重要 。 
e exec_time， 这 是 语句 的 时 间 惟 和 写 入 二 进 制 日 志 的 时 间 之 差 。 不 
要 依赖 这 个 值 ， 因 为 它 可 能 在 复制 落后 的 备 库 上 会 有 很 大 的 偏差 。 
。 在 原 服务 器 上 事件 产生 的 错误 代码 。 如 果 事 件 在 一 个 备 库 上 重 放 时 
导致 不 同 的 错误 ， 那 么 复制 将 因 安 全 预警 而 失败 。 











后 续 的 行 包含 重 放 变更 时 所 需 的 数据 。 用 户 自 定义 的 变更 和 任何 其 
他 特定 设置 ， 例 如 当 语 名 执行 时 有 效 的 时 间 戳 ， 也 将 会 出 现在 这 里 。 


* 


“tp 上 .如果 使 用 的 是 MYSQL 5.1 中 基于 和 的 日 志 ， 事 件 将 不 再 是 SQL。 而 是 可 读 性 较 差 的 由 












































语句 对 表 所 做 变更 的 < 镜像 *。 


15.4.2 ”安全 地 清除 老 的 二 进 制 日 志 


需要 决定 日 志 的 过 期 策略 以 防止 磁盘 被 二 进 制 日 志 写 满 。 日 志 增 长 
多 大 取决 于 负载 和 日 志 格 式 〈 基 于 行 的 日 志 会 导致 更 大 的 日 志 记录 ) 。 
我 们 建议 ， 如 果 可 能 ， 只 要 日 志 有 用 就 尽 可 能 保留 。 保 留 日 志 对 于 设置 
复制 、 分 析 服务 器 负载 、 审 计 和 从 上 次 全 备 按时 间 点 进行 恢复 ， 都 很 有 
帮助 。 当 决定 想 要 保留 日 志 多 久 时 ， 应 该 考虑 这 些 需求 。 








一 个 常见 的 设置 是 使 用 expire_log_days 变 量 来 告诉 MySQL 定 期 清 
理 日 志 。 这 个 变量 直到 MySQL 4.1 才 引入 ; 在 此 之 前 的 版 本 ， 必 须 手动 
清理 三 进 制 日 志 。 因 此 ， 你 可 能 看 到 一 些 用 类 似 下 面 的 cron 项 来 删除 老 
的 二 进 制 日 志 的 建议 。 


00 * * * /usr/bin/find /var/log/mysql -mtime +N-name "mysql - 


尽管 这 是 在 MySQL 4.1 之 前 清除 日 志 的 唯一 办 法 ， 但 在 新 版 本 中 不 
要 这 么 做 ! 用 rm 删除 日 志 会 导致 mysql-bin.index 状 态 文件 与 磁盘 上 的 文 
件 不 一 致 ， 有 些 语句 ， 例 如 SHOW MASTER L0GS 可 能 会 受到 影响 而 悄然 失 
败 。 手 动 修改 mysql-bin.index 文 件 也 不 会 修复 这 个 问题 。 应 该 用 类 似 下 


面 的 cron 命 令 。 
0 0 * * * /usr/bin/mysql -e "PURGE MASTER LOGS BEFORE CURRENT 


expire_logs_days 设 置 在 服务 器 启动 或 MySQL 切 换 二 进 制 日 志 时 
生效 ， 因 此 ， 如 果 二 进 制 日 志 从 没有 增长 和 切换 ， 服 务 器 不 会 清除 老 条 
目 。 此 设置 是 通过 查看 日 志 的 修改 时 间 而 不 是 内 容 来 决定 哪个 文件 需要 
被 清除 。 











15.5 ”备份 数据 


大 多 数 时 候 ， 生 成 备份 有 好 的 也 有 差 的 方法 一 -有 时 候 显 而 易 见 的 
方法 并 不 是 好 方法 。 一 个 有 用 的 技巧 是 应 该 最 大 化 利用 网 络 、 磁 盘 和 
CPU 的 能 力 以 尽 可 能 快 地 完成 备份 。 这 是 一 个 需要 不 断 去 平衡 的 事情 ， 
必须 通过 实验 以 找到 “最 佳 平衡 点 ”。 


15.5.1 生成 逻辑 备份 


对 于 逻辑 备份 ， 首 先 要 意识 到 的 是 它们 并 不 是 以 同样 方式 创建 的 。 
实际 上 有 两 种 类 型 的 逻辑 备份 :SQL 叶 出 和 符 写 分隔 文件 。 





SQL FH 


SQL 导出 是 很 多 人 上 所 熟悉 的 ， 因 为 它们 是 mysqldump 默 认 的 方式 。 
例如 ， 用 默认 选项 导出 一 个 小 表 将 产生 如 下 《有 删 减 》 输 出 。 


$ mysqldump test t1 
- [Version and host comments] 
/*140101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT 


- [More version-specific comments to save options for restor 


- Table structure for table `t1` 


DROP TABLE IF EXISTS `t1`; 
CREATE TABLE `t1` ( 

~a> int(11) NOT NULL, 

PRIMARY KEY (`a`) 

) ENGINE=MyISAM DEFAULT CHARSET=latin1; 
-- Dumping data for table `t1` 

LOCK TABLES `t1` WRITE; 

/*140000 ALTER TABLE `t1` DISABLE KEYS */; 
INSERT INTO `t1` VALUES (1); 

/*140000 ALTER TABLE `t1` ENABLE KEYS */; 
UNLOCK TABLES; 

/*140103 SET TIME_ZONE=@OLD_TIME_ZONE */; 
/*140101 SET SQL_MODE=@OLD_SQL_ MODE */; 


-- [More option restoration] 





导出 文件 包含 表 结 构 和 数据 ， 均 以 有 效 的 SQL 命令 形式 写 出 。 文 件 
以 设置 MySQL 各 种 选项 的 注释 开始 。 这 些 要 么 是 为 了 使 恢复 工作 更 高 
效 ， 要 么 是 因为 兼容 性 和 正确 性 。 接 下 来 可 以 看 到 表 结 构 ， 然 后 是 数 
据 。 最 后 ， 脚 本 重 置 在 导出 开始 时 变更 的 选项 。 


导出 的 输出 对 于 还 原 操作 来 说 是 可 执行 的 。 这 很 方便 ， 
但 mysqldurmp 默 认 选 项 对 于 生成 一 个 巨大 的 备份 却 不 是 太 适 合 〈 后 续 我 
们 会 深入 介绍 mysqldqump 的 选项 )。 


mysqldump 不 是 生成 SQL 逻辑 备份 的 唯一 工具 。 人 例如， 也 可 以 
用 mydumper 或 phpMyAdmin 工 具 来 创建 马 。 我 们 想 指出 的 是 ， 不 是 某 一 
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下面 是 主要 问题 点: 





Schema 和 数据 存储 在 一 起 


如 休想 从 单个 文件 恢复 这 样 做 会 非常 方便 ， 但 如 条 只 想 恢复 一 
个 表 或 只 想 恢 复数 据 就 很 困难 了 。 可 以 通过 导出 两 次 的 方法 来 减 绥 
这 个 问题 一 一 一 次 只 导出 数据 ， 另 外 一 次 只 导出 Schema 一 一 但 还 是 
会 有 下 一 个 麻烦 。 














巨大 的 SQL 语 句 


服务 器 分 析 和 执行 SQL 语 句 的 工作 量 非 常 大 ， 所 以 加 载 数据 时 


会 非常 慢 。 


单个 巨大 的 文件 





大 部 分 文本 编辑 器 不 能 编辑 巨大 的 或 者 包含 非常 长 的 行 的 文 
件 。 尺 管 有 了 时候 可 以 用 命令 行 的 流 编 辑 器 一 一 例如 sed 或 grep 
抽出 需要 的 数据 ， 但 保持 文件 小 型 化 仍然 是 更 合适 的 。 


来 








逻辑 备份 的 成 本 很 高 


比 起 过 辑 备 份 这 种 从 存储 引擎 中 读 取 数据 然后 通过 客户 端 / 服 
务 器 协议 发 送 结果 集 的 方式 ， 还 有 其 他 更 高 效 的 方法 。 





这 些 限制 意味 着 SQL 导 出 在 表 变 大 时 可 能 变 得 不 可 用 。 不 过 ， 还 有 
另外 一 个 选择 : 导出 数据 到 符号 分 隔 的 文件 中 。 


符号 分 隅 文件 备份 


可 以 使 用 SQL 命令 SELECT INTO 0UTFILE 以 符号 分 隔 文件 格式 创建 
数据 的 逻辑 备份 。〈 可 以 用 mysqldump 的 --tab 选 项 导出 到 符号 分 隔 文 件 
中 ) 。 符 号 分 隔 文件 包含 以 ASCII 展 示 的 原始 数据 ， 没 有 SQL、 注 释 和 
列 名 。 下 面 是 一 个 导出 为 带 号 分 隅 值 (CVS) 格式 的 例子 ， 对 于 表格 形 
式 的 数据 来 说 这 是 一 个 很 好 的 通用 格式 。 


mysql> SELECT * INTO OUTFILE '/tmp/t1i.txt' 
-> FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' 
-> LINES TERMINATED BY '\n' 


-> FROM test.t1; 








比 起 SQL 导出 文件 ， 符 号 分 隔 文件 要 更 紧 凌 且 更 易于 用 命令 行 工 具 
操作 ， 这 种 方法 最 大 的 优点 是 备份 和 还 原 速 度 更 快 。 可 以 和 导出 时 使 用 
一 样 的 选项 ， 用 LOAD DATA INFILE 方 法 加 载 数据 到 表 中 : 


mysql> LOAD DATA INFILE '/tmp/t1i.txt' 
-> INTO TABLE test.t1 
-> FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' 


-> LINES TERMINATED BY '\n'; 
下 面 这 个 非 正 式 的 测试 演示 了 SQL 文 件 和 符号 分 隔 文 件 在 备份 和 还 
原 上 的 速度 差异 。 在 测试 中 ， 我 们 对 生产 数据 做 了 些 修改 。 寻 出 的 表 看 
起 来 像 下 面 这 样 : 
CREATE TABLE Joad test ( 
coli date NOT NULL, 


col2 int NOT NULL, 
col3 smallint unsigned NOT NULL, 
col4 mediumint NOT NULL, 
col5 mediumint NOT NULL, 
col6 mediumint NOT NULL, 
col7 decimal(3,1) default NULL, 
cols varchar(10) NOT NULL default '', 
col9 int NOT NULL, 
PRIMARY KEY (coli, col2) 
) ENGINE=InnoDB; 


这 张 表 有 1500 万 行 ， 占 用 近 700MB 的 磁盘 空间 。 表 15-1 对 比 了 两 种 
备份 和 还 原 方法 的 性 能 。 可 以 看 到 测试 中 还 原 时 间 有 较 大 的 差异 。 





表 15-1: SQL 和 符号 分 隔 导 出 所 用 的 备份 和 恢复 时 间 





— 导出 时 间 pn p 还 原 时 间 


符号 分 豆 


但 是 SELECT INTO OUTFILE 方 法 也 有 一 些 限 制 。 


。 只 能 备份 到 运行 MySQL 服 务 器 的 机 器 上 的 文件 中 。 (可 以 写 一 个 
自 定义 的 SELECT INTO ”QUTF1LE 程 序 ， 在 读 取 SELECT 结 果 的 同时 写 
到 磁盘 文件 中 ， 我 们 已 经 看 到 有 些 人 采用 这 种 方法 。) 

。 运行 MySQL 的 系统 用 户 必 须 有 文件 目录 的 写 权 限 ， 因 为 是 由 











MySQL 服 务 器 来 执行 文件 的 写 入 ， 而 不 是 运行 SQL 命令 的 用 户 。 
。 出 于 安全 原因 ， 不 能 者 盖 已 经 存在 的 文件 ， 不 管 文件 权限 如 何 。 
。 不 能 直接 导出 到 压缩 文件 中 。 

o 东 些 情况 下 很 难 进 行 正 确 的 导出 或 导入 ， 例 如 非 标 准 的 字符 集 。 


15.5.2 ”文件 系统 快照 


文件 系统 快照 是 一 种 非常 好 的 在 线 备份 方法 。 支 持 快照 的 文件 系统 
能 够 瞬间 创建 用 来 备份 的 内 容 一 致 的 镜像 。 支 持 快照 的 文件 系统 和 设备 
包括 FreeBSD 的 文件 系统 、ZFS 文 件 系统 、GNU/Linux 的 多 辑 卷 管理 
(LVM) ， 以 及 许多 的 SAN 系 统 和 文件 存储 解决 方案 ， 例 如 NetApp 存 
储 。 








不 要 把 快照 和 备份 相 混 消 。 创 建 快 照 是 减少 必须 持 有 锁 的 时 间 的 一 
个 简单 方法 ， 释 放 锁 后 ， 必 须 复制 文件 到 备份 中 。 事 实 上 ， 有 些 时 候 其 
至 可 以 创建 InnoDB 快 照 而 不 需要 锁定 。 我 们 将 要 展示 两 种 使 用 LVM 来 
对 InnoDB 文 件 系 统 做 备份 的 方法 ， 可 以 选择 最 小 化 锁 或 零 锁 的 方案 。 


快照 对 于 特别 用 途 的 备份 是 一 个 非常 好 的 方法 。 一 个 例子 是 在 升级 
过 程 中 遇 到 有 问题 而 回 退 的 情况 。 可 以 在 升级 前 创建 一 个 镜像 ， 这 样 如 
果 升 级 有 问题 ， 只 需要 回 深 到 该 镜像 。 可 以 对 任何 不 确定 和 有 风险 的 操 
作 都 这 么 做 ， 例 如 对 一 个 巨大 的 表 做 变更 (需要 多 少时 间 是 未 知 的 〉。 








LVM 快 照 是 如 何 工作 的 





LVM 使 用 写 时 复制 (copy-on-write〉 的 技术 来 创建 快照 一 一 例如 ， 





对 整个 卷 的 某 个 瞬间 的 逻辑 副本 。 这 与 数据 库 中 的 MVCC 有 点 像 ， 不 同 
的 是 它 只 保留 一 个 老 的 数据 版 本 。 


注意 ， 我 们 说 的 不 是 物理 副本 。 逻 辑 副 本 看 起 来 好 像 包 含 了 创建 快 
照 时 卷 中 所 有 的 数据 ， 但 实际 上 一 开始 快照 是 不 包 合 数据 的 。 相 比 复制 
数据 到 快照 中 ，LVM 只 是 简单 地 标记 创建 快照 的 时 间 点 ， 然 后 对 该 快 
照 请 求 读数 据 时 ， 实 际 上 是 从 原始 卷 中 读 取 的 。 因 此 ， 初 始 的 复制 基本 
上 是 一 个 瞬间 惑 能 完成 的 操作 ， 不 管 创 建 快 照 的 疮 有 多 大 。 








当 原 始 卷 中 某 些 数据 有 变化 时 ，LVM 在 任何 变更 写 入 之 前 ， 会 复 
制 受 影响 的 块 到 快照 预 留 的 区 域 中 。LVM 不 保留 数据 的 多 个 “ 老 版 本 ”， 
因此 对 原始 多 中 变更 块 的 额外 写 入 并 不 需要 对 快照 做 其 他 更 多 的 工作 。 
换 句 话说 ， 对 每 个 块 只 有 第 一 次 写 入 才 会 导致 瑟 时 复制 到 预 留 的 区 域 。 


现在 ， 在 快照 中 请 求 这 些 块 时 ，LVM 会 从 复制 块 中 而 不 是 从 原始 
卷 中 读 取 。 上 所 以 ， 可 以 继续 看 到 快照 中 相同 时 间 点 的 数据 而 不 需要 阻 竖 
任何 原始 卷 。 图 15-1 描 述 了 这 个 方案 。 

















图 15-1: 写 时 复制 技术 如 何 减少 单个 卷 快照 需要 的 大 小 


快照 会 在 /aev 目 录 下 创建 一 个 新 的 逻辑 卷 ， 可 以 像 挂 载 其 他 设备 一 


样 挂 载 它 。 


理论 上 讲 ， 这 种 撤 术 可 以 对 一 个 非常 大 的 卷 做 快照 ， 而 只 需要 非常 
少 的 物理 存储 空间 。 但 是 ， 必 须 设置 足够 的 空间 ， 保 证 在 快照 打开 时 ， 
能 够 保存 所 有 期 望 在 原始 卷 上 更 新 的 块 。 如 果 不 预 留 足够 的 写 时 复制 空 
间 ， 妆 快照 用 完 所 有 的 空间 后 ， 设 备 束 会 变 得 不 可 用 。 这 个 影响 束 像 拔 
出 一 个 外 部 设备 : 任何 从 设备 上 读 的 备份 工作 都 会 因 IO 错 误 而 失败 。 








先决 条 件 和 配置 





创建 一 个 快照 的 消耗 几乎 微不足道 ， 但 还 是 需要 确保 系统 配置 可 以 
让 你 获取 在 备份 瞬间 的 所 有 需要 的 文件 的 一 致 性 副本 。 首 先 ， 确 保 系统 
满足 下 面 这 些 条 件 。 


。 所 有 的 InnoDB 文 件 (InnoDB 的 表 空 间 文 件 和 InnoDB 的 事务 日 志 ) 
必须 是 在 单个 逻辑 卷 〈 分 区 ) 。 你 需要 绝对 的 时 间 点 一 致 性 ， 
LVM 不 能 为 多 于 一 个 卷 做 某 个 时 间 点 一 致 的 快照 。《〈 这 是 LVM 的 
一 个 限制 ， 其 他 一 些 系 统 没 有 这 个 问题 。) 

如 果 需 要 备份 表 定 义 ，MySQL 数 据 目 录 必 须 在 相同 的 逻辑 卷 中 。 
如 果 使 用 另外 一 种 方法 来 备份 表 的 定义 ， 例 如 只 备份 Schema 到 版 本 
控制 系统 中 ， 融 不 需要 担心 这 个 问题 。 

必须 在 卷 组 中 有 足够 的 空间 空间 来 创建 快照 。 需 要 多 少 取决 于 负 
载 。 当 配置 系统 时 ， 应 该 留 一 些 未 分 配 的 空间 以 便 后 面 做 快照 。 











LVM 有 卷 组 的 概念 ， 它 包 合 一 个 或 多 个 馆 辑 卷 。 可 以 按照 如 下 的 
方式 查看 系统 中 的 卷 组 : 


# vgs 


VG #PV #LV #SN Attr VSize VFree 


vg 1 4 0 wZ--n- 534.18G 249.186G 


输出 显示 了 一 个 分 布 在 一 个 物理 卷 上 的 卷 组 ， 它 有 四 个 逻辑 卷 ， 大 
概 有 250GB 空 间 空 亲 。 如 果 需 要 ， 可 用 vgdisplay 命 令 产生 更 详细 的 输 
出 。 现 在 让 我 们 看 一 下 系统 上 的 逻辑 卷 : 


# lvs 
LV VG Attr LSize Origin Snap% Move Log Copy% 
home vg -wi-ao 40.00G 
mysql vg -wi-ao 225.00G 
tmp vg -wi-ao 10.00G 


var vg -wi-ao 10.00G 


输出 显示 mysq1 卷 有 225GB 的 空间 。 设 备 名 是 /dev/vg/mysql1。 这 仅 
是 个 名 字 ， 尽 管 看 起 来 像 一 个 文件 系统 路 径 。 更 加 让 人 困惑 的 是 ， 还 有 
个 符号 链接 从 相同 名 字 的 文件 链 到 /dev/mapper/wg-mysql 的 设备 节点 ， 

用 ls 和 mount 命 令 可 以 观察 到 。 





# ls -1 /dev/vg/mysql 
lrwxrwxrwx 1 root root 20 Sep 19 13:08 /dev/vg/mysql -> /dev/ 
# mount | grep mysql 


/dev/mapper/vg-mysql on /var/lib/mysql 


有 了 这 个 信息 ， 就 可 以 创建 文件 系统 快照 了 。 


创建 、 挂 载 和 删除 LVM 人 快照 


一 条 命令 就 能 创建 快照 。 只 需要 决定 快照 存放 的 位 置 和 分 配给 写 时 
复制 的 空间 大 小 即 可 。 不 要 纠结 于 是 人 否 使 用 比 想象 中 的 需求 更 多 的 空 
间 。LVM 人 不 会 马上 使 用 完 所 有 指定 的 空间 ， 只 是 为 后 续 使 用 预 留 而 
己 。 因 此 多 预 留 一 点 空间 并 没有 坏处 ， 除 非 你 必须 同时 为 其 他 快照 预 贸 


空间 。 








让 我 们 来 练习 创建 一 个 快照 。 我 们 给 它 16GB 的 写 时 复制 空间 ， 名 
字 为 backup_mysql。 


# lvcreate --size 16G --snapshot --name backup_mysql /dev/vg/ 
Logical volume "backup_mysql" created 
ee 


as | 这 里 特意 命名 为 backup_mysql 卷 而 不 是 mysql_backup， 是 为 了 避免 Tab 键 自动 补 全 造 


WY as, = a 



































成 误会 。 这 有 助 于 避免 因为 Tab 键 自动 补 全 导致 突然 误 删 除 mysql 卷 组 的 可 能 。 








现在 让 我 们 看 看 新 创建 的 卷 的 状态 。 


# lvs 
LV VG Attr LSize Origin Snap% Move Log C 
backup_mysql vg Swi-a- 16.00G mysql 0.01 


home vg -wi-ao 40. 00G 
mysql vg Owi-ao 225.00G 
tmp vg -Wi-ao 10.00G 
var vg -Wi-ao 10.00G 





可 以 注意 到 ， 快 照 的 属性 与 原 设备 人 不同， 而且 该 输出 还 显示 了 一 所 
额外 的 信息 : 原始 卷 组 和 分 配 了 16GB 的 写 时 复制 空间 目前 已 经 使 用 了 
多 少 。 备 份 时 对 此 进行 监控 是 个 非常 好 的 主意 ， 可 以 知道 是 人 否 会 因为 设 








备 写 满 而 备份 失败 。 可 以 交互 地 监控 设备 的 状态 ， 或 使 用 诸如 Nagios 这 


样 的 监控 系统 。 


# watch 'lvs | grep backup' 


从 前 面 mount 的 输出 可 以 看 到 ，mysql 卷 包含 一 个 文件 系统 。 这 意味 
着 快照 也 同样 如 此 ， 可 以 像 其 他 文件 系统 一 样 挂 载 。 


# mkdir /tmp/backup 


# mount /dev/mapper/vg-backup_mysql /tmp/backup 


# ls -1 /tmp/backup/mysql 


total 5336 

-rw-r----- 1 mysql mysql 
-rw-r----- 1 mysql mysql 
-rw-r----- 1 mysql mysql 
-rw-r----- 1 mysql mysql 
-rw-r----- 1 mysql mysql 
-rw-r----- 1 mysql mysql 

. omitted ... 





© Nov 17 2006 columns_priv.MY 
1024 Mar 24 2007 columns_priv.MY 
8820 Mar 24 2007 columns_priv.fr 
10512 Jul 12 10:26 db.MYD 
4096 Jul 12 10:29 db.MYI 
9494 Mar 24 2007 db.frm 


这 里 只 是 为 了 练习 ， 因 此 我 们 凶 载 这 个 快照 并 用 lvremove 命 令 将 其 


删除 。 


# umount /tmp/backup 


# rmdir /tmp/backup 


# lvremove --force /dev/vg/backup_mysql 


Logical volume "backup_mysql" successfully removed 


用 于 在 线 备 份 的 LVM 快 照 


现在 已 经 知道 如 何 创建 、 加 载 和 删除 快照 ， 可 以 使 用 它们 来 进行 备 
份 了 。 首 先 看 一 下 如 何在 不 停止 MySQL 服 务 的 情况 下 备份 InnoDB 数 据 
库 ， 这 里 需要 使 用 一 个 全 局 的 读 锁 。 连 接 MySQL 服 务 器 并 使 用 一 个 全 
局 读 锁 将 表 刷 到 磁盘 上 ， 然 后 获取 二 进 制 日 志 的 位 置 : 





mysql> FLUSH TABLES WITH READ LOCK; SHOW MASTER STATUS; 


记录 SHOW MASTER STATUS 的 输出 ， 确 保 到 MySQL 的 连接 处 于 打开 
状态 ， 以 使 恋 锁 不 被 释放 。 然 后 获取 LVM 的 快照 并 立刻 释放 该 读 锁 ， 
可 以 使 用 UNLOCK TABLES 或 者 直接 关闭 连接 来 释放 锁 。 最 后 ， 加 载 快 
照 并 复制 文件 到 备份 位 置 。 





这 种 方法 最 主要 的 问题 是 ， 获 取 读 锁 可 能 需要 一 点 时 间 ， 特 别 是 当 
有 许多 长 时 间 运 行 的 查询 时 。 当 连接 等 竺 全 局 读 锁 时 ， 所 有 的 碍 询 都 将 
被 阻 星 ， 并 且 不 可 预测 这 会 持续 多 久 。 








文件 系统 快照 和 InnoDB 


即使 锁 住所 有 的 表 ，lnnoDB 的 后 台 线 程 仍 会 继续 工作 ， 因 此 ， 即 
使 在 创建 快照 时 ， 仍 然 可 以 往 文件 中 写 入 。 并 且 ， 由 于 lnnoDB 没 有 执 
行 关 闭 操作 ， 如 果 服 务 器 意外 断 电 ， 快 照 中 InnoDB 的 文件 会 和 服务 器 
意外 掉 电 后 文件 的 遭遇 一 样 。 


这 不 是 什么 问题 ， 因 为 InnoDB 是 个 ACID 系统 。 任 何 时 刻 〈 例 如 快 
照 时 ) ， 每 个 提交 的 事务 要 么 在 InnoDB 数 据 文件 中 要 么 在 日 志文 件 


中 。 在 还 原 快照 后 启动 MySQL 时 ，1nnoDB 将 运行 恢复 进程 ， 就 像 服务 
器 断 过 电 一 样 。 它 会 查找 事务 日 志 中 任何 提交 但 没有 应 用 到 数据 文件 
中 的 事务 然后 应 用 ， pe a 
据 文件 和 日 志文 件 在 一 起 快照 的 原因 。 


这 也 是 在 备份 后 需要 测试 的 原因 。 启 动 一 个 MySQL 实 例 ， 把 它 指 
向 一 个 新 备份 ， 让 1nnoDB 执 行 前 溃 恢 复 过 程 ， 然 后 检测 所 有 的 表 。 通 
就 不 会 备份 损坏 了 却 还 不 知道 〈 文 件 可 能 由 于 任何 原因 
损坏 ) 。 这 么 做 的 另外 一 个 好 处 是 ， 未 来 需要 从 备份 中 还 原 时 会 更 
快 ， ee ees: 过 一 遍 恢 复 程序 了 。 


甚至 还 可 以 在 将 快照 复制 到 备份 目的 地 之 前 ， 直 接 在 快照 上 做 上 
面 的 操作 ， 但 增加 一 点 点 额外 开销 。 所 以 需要 确保 这 是 计划 内 的 操 
作 。 (后 面 会 有 更 多 说 明 。) 





使 用 LVM 快 照 无 锁 InnoDB 备 份 





无 锁 备 份 只 有 一 点 不 同 。 区 别 是 不 需要 执行 FLUSH TABLES WITH 
READ ”LOCK。 这 意味 着 不 能 保证 MyISAM 文 件 在 磁盘 上 一 致 ， 如 果 只 使 
用 InnoDB， 这 束 不 是 问题 。mysq| 系统 数 据 库 中 依然 有 部 分 MyISAM 
表 ， 但 如 果 是 典型 的 工作 负载 ， 在 快照 时 这 些 表 不 太 可 能 发 生 改 变 。 





如 采 你 认为 mysql 系 统 表 可 能 会 变更 ， 那 么 可 以 锁 住 并 刷新 这 
表 。 一 般 不 会 对 这 些 表 有 长 时 间 运 行 的 查询， 所 以 通常 会 很 快 。 





mysql> LOCK TABLES mysql.user READ, mysql.db READ, ...; 
mysql> FLUSH TABLES mysql.user, mysql.db, ...; 


由 于 没有 用 全 局 读 锁 ， 因 此 不 会 从 SHOW MASTER STATUS 中 获取 到 任 
何 有 用 的 信息 。 尽 管 如 此 ， 基 于 快照 启动 MySQL (来 验证 备份 的 完整 
性 ) 时 ， 也 将 会 在 日 志文 件 中 看 到 像 下 面 的 内 容 。 





InnoDB: Doing recovery: scanned up to log sequence number 0 4 
InnoDB: Starting an apply batch of log records to the databas 
InnoDB: Progress in percents: 3 4 5 6 ...[omitted]... 97 98 9 
InnoDB: Apply batch completed 

InnoDB: Last MySQL binlog file position 0 3304937, file name 
/var/log/mysql/mysql-bin.000001 

070928 14:08:42 InnoDB: Started; log sequence number 0 408172 





InnoDB 记 录 了 MySQL 已 经 恢复 的 时 间 点 对 应 的 二 进 制 日 志 位 置 。 
这 个 二 进 制 日 志 位 置 可 以 用 来 做 基于 时 间 点 的 恢复 。 





使 用 快照 进行 无 锁 备 份 的 方法 在 MySQL 5.0 或 更 新 版 本 中 有 变动 。 
这 些 MySQL 版 本 使 用 XA 来 协调 mnoDB 和 二 进 制 日 志 。 如 果 还 原 到 一 个 
与 备份 时 server_id 不 同 的 服务 器 ， 服 务 器 在 准备 事务 阶段 可 能 发 现 这 
是 从 另外 一 个 与 自己 有 不 同 ID 的 服务 器 来 的 。 在 这 种 情况 下 ， 服 务 器 会 
变 得 困惑 ， 恢 复 事 务 时 可 能 会 卡 在 PREPARED 状 态 。 这 种 情况 很 少 发 生 ， 
但 是 存在 可 能 性 。 这 也 是 只 有 经 过 验证 才 可 以 说 备份 成 功 的 原因 。 有 些 
备份 也 许 是 不 能 恢复 的 。 








如 果 是 在 备 库 上 获取 快照 ，InnoDB 恢 复 时 还 会 打印 如 下 几 行 日 


InnoDB: In a MySQL replica the last master binlog file 


InnoDB: position © 115, file name mysql-bin.001717 











输出 显示 了 InnoDB 已 经 恢复 的 基于 主 库 的 二 进 制 日 志 位 置 (相对 
于 备 库 二 进 制 日 志 位 置 ) ， 这 对 于 基于 备 库 备 份 或 基于 其 他 备 库 克隆 备 
库 来 说 非常 有 用 。 








规划 LVM 备 份 


LVM 快 照 备 份 也 是 有 开销 的 。 服 务 器 写 到 原始 卷 的 越 多 ， 引 发 的 
额外 开销 也 越 多 。 当 服务 器 随机 修改 许多 不 同 块 时 ， 破 头 需要 目 写 时 复 
制 空 间 来 来 回回 寻 址 ， 并 且 将 数据 的 老 版 本 写 到 写 时 复制 空间 。 从 快照 
中 读 取 也 有 开销 ， 因 为 LVM 需 要 从 原始 卷 中 读 取 大 部 分 数据 。 只 有 快 
照 创 建 后 修改 过 的 数据 从 写 时 复制 空间 该 取 ; 因此， 逻辑 顺序 读 取 快照 
数据 实际 上 也 可 能 导致 磁头 来 回 移动 。 

















所 以 应 该 为 此 规划 好 快照 。 快 照 实际 上 会 导致 原始 卷 和 快照 都 比 正 
第 的 读 / 写 性 能 要 差 一 一 如 果 使 用 过 多 的 写 时 复制 空间 ， 性 能 可 能 会 委 
很 多 。 这 会 降低 MySQL 服 务 器 和 复制 文件 进行 备份 的 性 能 。 我 们 做 了 
基准 测试 ， 友 现 LVM 快 照 的 开销 要 远 高 于 它 本 应 该 有 的 一 一 我 们 发 现 
性 能 最 多 可 能 会 慢 5 倍 ， 有 具体 取决 于 负载 和 文件 系统 。 在 规划 备份 时 要 
记得 这 一 点 。 











规划 中 另外 一 个 重要 的 事情 是 ， 为 快照 分 配 足 够 多 的 空间 。 我 们 一 
般 采 取 下 面 的 方法 。 





。 记 住 ，LVM 只 需要 复制 每 个 修改 块 到 快照 一 次 。MySQL 写 一 个 块 
到 原始 苍 中 时 ， 它 会 复制 这 个 块 到 快照 中 ， 然 后 对 复制 的 块 在 例外 
表 中 生成 一 个 标记 。 后 续 对 这 个 块 的 写 不 会 产生 任何 到 快照 的 复 
制 |。 








e 如 果 只 使 用 mnoDB， 要 考虑 InnoDB 是 如 何 写 数据 的 。InnoDB 实 际 
需要 对 数据 写 两 笛 ， 至 少 一 半 的 InnoDB 的 写 IO 会 到 双 写 缓冲 
(doublewrite buffer) 、 日 志文 件 ， 以 及 其 他 磁盘 上 相对 小 的 区 域 
中 。 这 部 分 会 多 次 重用 相同 的 磁盘 块 ， 因 此 第 一 次 时 对 快照 有 影 
啊 ， 但 写 过 一 次 以 后 就 不 会 对 快照 种 来 写 压 力 。 

。 接 下 来 ， 相 对 于 反复 修改 同样 的 数据 ， 需 要 评估 有 多 少 IJO 需 要 写 
入 到 那些 还 没有 复制 到 快照 写 时 复制 空间 的 块 中 ， 对 评估 的 结果 要 
保留 足够 的 余 量 。 

。 使 用 vmstat 或 iostat 来 收集 服务 器 每 秒 写 多 少 块 的 统计 信息 。 

。 衡量 (或 评估 ) 复制 备份 到 其 他 地 方 需要 多 入。 换言之 ， 需 要 在 复 
制 期 间 保持 LVM 快 照 打 开 多 长 时 间 。 








假设 评估 出 有 一 半 的 写 会 导致 往 快 照 的 写 时 复制 空间 的 写 操作 ， 并 
且 服 务 器 文 持 10MB/s 的 写 入 。 如 果 需 要 一 个 小 时 〈3600s) 将 快照 复制 
到 另外 一 个 服务 器 上 ， 那 么 将 需要 1/2x10MBx3600 即 18GB 的 快照 空 
间 。 考 虑 到 容错 ， 还 要 增加 一 些 额 外 的 空间 。 


有 时 候 当 快照 保持 打开 时 ， 很 容易 计算 会 有 多 少数 据 发 生 改变 。 让 
我 们 看 个 例子 。BoardReader 论 坛 搜索 引擎 每 个 存储 节点 有 约 1TB 的 
InnoDB 表 。 但 是 ， 我 们 知道 最 大 的 开销 是 加 载 新 数据 。 每 天 新 增 近 
10GB 的 数据 ， 因 此 50GB 的 快照 空间 应 该 完全 足够 。 然 而 这 样 来 评估 并 
不 总 是 正确 的 。 假 设 在 某 个 时 间 点 ， 有 一 个 长 时 间 运 行 的 依次 修改 每 个 
分 片 的 ALTER TABLE 操作 ， 它 会 修改 超过 50GB 的 数据 ;在 这 个 时 间 点 ， 
就 不 能 做 备份 操作 。 为 了 避免 这 样 的 问题 ， 可 以 稍 后 再 创建 快照 ， 因 为 
创建 快照 后 会 导致 一 个 负载 的 高 峰 。 








备份 误区 2: “RR ee” 


一 个 快照 ， 不 论 是 LVM 快 照 、ZFS 快 照 ， 还 是 SAN 快 照 ， 都 不 是 实 
际 的 备份 ， 因 为 它 不 包含 数据 的 完整 副本 。 正 因为 快照 是 写 时 复制 
的 ， 所 以 它 只 包含 实际 数据 和 快照 发 生 的 时 间 点 的 数据 之 间 的 差异 数 


据 。 如 果 一 个 没有 被 修改 的 块 在 备份 副本 时 被 损坏 ， 那 就 没有 该 块 的 
正常 副本 可 以 用 来 恢复 ， 并 且 备 份 副本 时 每 个 快照 看 到 的 都 是 相同 的 
损坏 的 块 。 可 以 使 用 快照 来 “冻结 ”备份 时 的 数据 ， 但 不 要 把 快照 当 
作 一 个 备份 。 





快照 的 其 他 用 途 和 蔡 代 方案 


快照 有 更 多 的 其 他 用 途 ， 而 不 仅仅 用 于 备份 。 例 如 ， 之 前 提 到 ， 在 
一 个 有 潜在 危险 的 动作 之 前 生成 一 个 “检查 氮 ” 会 有 帮助 。 有 些 系统 允许 
将 快照 提升 为 原文 件 系统 ， 这 使 得 回 深 到 生成 快照 的 时 间 扣 的 数据 非 当 
简单 。 


文件 系统 快照 不 是 取得 数据 瞬间 副本 的 唯一 方法 。 另 外 一 个 选择 是 
RAID 分 裂 ， 举 个 例子 ， 如 果 有 一 个 三 磁盘 的 软 RAID 镜 像 ， 就 可 以 从 该 
RAID 组 中 移出 来 一 个 磁盘 单独 加 载 。 这 样 做 没有 写 时 复制 的 代价 ， 并 
且 需 要 时 将 此 类 “快照 "提升 为 主 副本 的 操作 也 很 简单 。 不 错 ， 如 果 要 将 
磁盘 加 回 到 RAID 集 合 ， 就 必须 重新 进行 同步 。 当 然 ， 天 下 没有 免费 的 
午餐 。 





15.6 ”从 备份 中 恢复 


如 何 恢复 数据 取决 于 是 怎么 备份 的 。 可 能 需要 以 下 部 分 或 全 部 步 





e 停止 MySQL 服 务 嚣 。 

© 记录 服务 器 的 配置 和 文件 权限 。 

。 将 数据 从 备份 中 移 到 MySQL 数 据 目录 。 

。 改变 配置 。 

。 改变 文件 权限 。 

。 以 限制 访问 模式 重启 服务 器 ， 等 待 完成 司 动 。 
© 载 入 逻辑 备份 文件 。 

。 检查 和 重 放 二 进 制 日 志 。 

o 检测 已 经 还 原 的 数据 。 

。 以 完全 权限 重启 服务 器 。 








我 们 在 接 下 来 的 章节 中 将 演示 这 些 步 又 的 具体 操作 。 我 们 也 会 对 本 
节 及 本 章 后 面 几 市 提 及 的 一 些 特殊 的 备份 方法 和 工具 做 一 些 解 释 。 


























Sea 如果 有 机 会 使 用 文件 的 当前 版 本 ， 就 不 要 用 备份 中 的 文件 来 代 蔡 。 例 如 ， 如 果 备 

















份 包含 二 进 制 日 志 ， 并 且 需 要 重 放 这 些 日 志 来 做 基于 时 间 点 的 恢复 ， 那 么 不 要 把 当前 二 进 制 日 
志 用 备份 中 的 老 的 副本 替代 。 如 果 有 需要 ， 可 以 将 其 重 命名 或 移动 到 其 他 地 方 。 






















































































在 恢复 过 程 中 ， 保 证 MySQL 除 了 恢复 进程 外 不 接受 其 他 访问 ， 这 
一 点 往往 比较 重要 。 我 们 喜欢 以 --skip-networking 和 -- 
socket=/tmp/mysql_recover.sock 选 项 来 启动 MySQL， 以 确保 它 对 于 已 经 





存在 的 应 用 不 可 访问 ， 直 到 我 们 检测 完 并 重新 提供 服务 。 这 对 于 按 块 加 
载 的 逻辑 备份 的 恢复 来 说 尤其 重要 。 


15.6.1 ”恢复 物理 备份 


恢复 物理 备份 往往 非常 直接 一 一 换言之 ， 没 有 太 多 的 选项 。 这 可 能 
是 好 事 ， 也 可 能 是 坏事 ， 具 体 取决 于 恢复 的 需求 。 一 般 过 程 是 简单 地 复 
制 文件 到 正确 位 置 。 








是 否 需 要 关闭 MySQL 取 决 于 存储 引擎 。MyISAM 的 文件 一 般 相 互 独 
立 ， 即 使 服务 器 正在 运行 ， 简 单 地 复制 每 个 表 的 .frm、.MYI 和 .MYD 文 件 
也 可 以 正常 操作 。 一 旦 有 任何 对 此 表 的 查询 ， 或 者 其 他 会 导致 服务 器 访 
问 此 表 的 操作 (例如 ， 执 行 SHOW TABLES) , MySQL 都 会 立刻 找到 这 些 
表 。 如 果 在 复制 这 些 文件 时 表 是 打开 的 ， 可 能 会 有 及 烦 ， 因 此 操作 前 要 
么 删除 或 重 命名 该 表 ， 要 么 使 用 LOCK TABLES 和 FLUSH ”TABLES 来 关闭 


FS 


Kio 











InnoDB 的 情况 有 所 不 同 。 如 果 用 传统 的 InnoDB 的 步骤 来 还 原 ， 即 
所 有 表 都 存储 在 单个 表 空 间 ， 就 必须 关闭 MySQL， 复 制 或 移动 文件 到 
正确 位 置 上 ， 然 后 重启 。 同 样 也 需要 InnoDB 的 事务 日 志文 件 与 表 空 间 
文件 匹配 。 如 果 文 件 不 匹配 一 一 例如 ， 替 换 了 表 空 间 文 件 但 没有 蔡 换 事 
务 日 志文 件 一 InnoDB 将 会 拒绝 启动 。 这 也 是 将 日 志和 数据 文件 一 起 
备份 非常 关键 的 一 个 原因 。 














如 果 使 用 InnoDB ”名 e-per-table 特 性 Cinnodb_file_per_table) , 
InnoDB 会 将 每 个 表 的 数据 和 索引 存储 于 一 个 .ibd 文 件 中 ， 这 就 像 
MyISAM 的 .MYI 和 .MYD 文 件 合 在 一 起 。 可 以 在 服务 器 运行 时 通过 复制 





这 些 文件 来 备份 和 还 原单 个 表 ， 但 这 并 不 像 MyISAM 中 那样 简单 。 这 些 
文件 并 不 完全 独立 于 InnoDB。 每 个 .ibpd 文 件 都 有 一 些 内 部 的 信息 ， 保 存 
着 它 与 主 〈 共 享 ) 表 空 间 之 间 的 关系 。 在 还 原 这 样 的 文件 时 ， 需 要 让 

InnoDB 先 “导入 ”这 个 文件 。 











这 个 过 程 有 许多 的 限制 ， 如 果 有 需要 可 以 阅读 MySQL 用 户 手 册 中 
关于 每 个 表 使 用 独立 表 空 间 中 的 部 分 。 最 大 的 限制 是 只 能 在 当初 备份 的 
服务 器 上 还 原单 个 表 。 用 这 种 配置 来 备份 和 还 原 多 个 表 不 是 不 可 能 ， 但 
可 能 比 想象 的 要 更 棘手 。 











te £ 5 总 、 SN 
| “3 Percona Server 和 Percona XtraBackup 有 一 些 改进 ， 放 宽 了 部 分 关于 这 个 过 程 的 限制 ， 


例如 同一 服务 器 的 限制 。 











所 有 这 些 复杂 上 度 意 味 着 还 原 物 理 备 份 会 非常 乏味 ， 并 且 容 易 出 错 。 
一 个 好 的 值得 倡导 的 规则 是 ， 恢 复 过 程 越 难 越 复杂 ， 也 就 越 需要 逻辑 备 
份 的 保护 。 为 了 防止 一 些 无 法 意料 的 情况 或 者 东 些 无 法 使 用 物理 备份 的 
场景 ,准备 好 逻辑 备份 总 是 值得 推荐 的 。 








还 原 物 理 备份 后 局 动 MySQL 





在 启动 正在 恢复 的 MYSQL 服务 器 之 前 ， 还 有 些 步 又 要 做 。 





站 和 完 ， 最 重要 且 最 容易 起 记 的 事情 ， 是 在 启动 MySQL 服 务 器 之 前 
检查 服务 器 的 配置 ， 确 保 恢复 的 文件 有 正确 的 归属 和 权限 。 这 些 属性 必 
须 完 全 正确 ， 人 否则 MySQL 可 能 无 法 启动 。 这 些 属性 因 系 统 的 不 同 而 不 
同 ， 因 此 要 仔细 检查 是 否 和 之 前 做 的 记录 吻合 。 一 般 都 需要 mysql 用 户 
和 组 拥有 这 些 文件 和 目录 ， 并 且 只 有 这 个 用 户 和 组 拥有 可 读 / 写 权 限 。 











建议 观察 MySQL 启 动 时 的 错误 日 志 。 在 UNIX 类 系统 上 ， 可 以 如 下 
观察 文件 。 


$ tail -f /var/log/mysql/mysql.err 


注意 错误 日 志 的 准确 位 置 会 有 所 不 同 。 一 旦 开始 监测 文件 ， 就 可 以 
启动 MySQL 服 务 器 并 监测 错误 。 如 果 一 切 进 展 顺利 MySQL 启动 后 就 
有 一 个 恢复 好 的 数据 库 服 务 器 了 。 


观察 错误 日 志 对 于 新 的 MySQL 版 本 更 为 重要 。 老 版 本 在 InnoDB 有 
普 时 不 会 启动 ， 但 新 版 本 不 管 怎样 都 会 启动 ， 而 只 是 让 InnoDB 失 效 。 
即使 服务 器 看 起 来 启动 没有 任何 问题 ， 也 应 该 对 每 个 数据 库 运 行 SHOW 
TABLE STATUS 来 再 次 检测 错误 日 志 。 


15.6.2 ”还 原 逻 辑 备份 


如 果 还 原 的 是 馆 辑 备份 而 不 是 物理 备份 ， 则 与 使 用 操作 系统 简单 地 
复制 文件 到 适当 位 置 的 方式 不 同 ， 需 要 使 用 MYSQL 服务 露 本身 来 加 载 
数据 到 表 中 。 














在 加 载 导出 文件 之 前 ， 应 该 先 伦 一 点 时 间 考 虑 文件 有 多 大 ， 和 需要 多 
久 加 载 完 ， 以 及 在 启动 之 前 还 需要 做 什么 事情 ， 例 如 通知 用 户 或 禁 掉 部 
分 应 用 。 禁 掉 二 进 制 日 志 也 是 个 好 主意 ， 除 非 需 要 将 还 原 操作 复制 到 备 
E: 服务 器 加 载 一 个 巨大 的 导出 文件 的 代价 很 品 ， 并 且 写 二 进 制 日 志 会 
增加 更 多 的 (可 能 没有 必要 的 ) 开销 。 加 载 巨 大 的 文件 对 于 一 些 存储 引 
擎 也 有 影响 。 例 如 ， 在 单个 事务 中 加 载 100GB 数 据 到 InnoDB 就 不 是 个 好 
想法 ， 因 为 巳 大 的 回 深 段 将 会 导致 问题 。 应 该 以 可 控 大 小 的 块 来 加 载 ， 











并 且 逐 个 提交 事务 。 有 两 种 类 型 的 逻辑 备份 ， 所 以 相应 地 有 两 种 类 型 的 
还 原 操作 。 


加 载 SQL 文 件 


如 果 有 一 个 SQL 导出 文件 ， 它 将 包含 可 执行 的 SQL。 需 要 做 的 就 是 
运行 这 个 文件 。 假 设备 份 Sakila 示 例 数据 库 和 Schema 到 单个 文件 ， 下 面 
古 用 来 还 原 的 常用 命令 。 





$ mysql < sakila-backup.sql 


也 可 以 从 mysql 命 令 行 客 户 端 用 SOURCE 命 令 加 载 文 件 。 这 只 是 做 相 
同事 情 的 不 同方 法 ， 不 过 该 方法 使 得 某 些 事情 更 人 简单。 例如， 如 果 你 是 
MySQL 管 理 用 户 ， 就 可 以 关闭 用 客户 端 连 接 执行 时 的 二 进 制 记录 ， 然 
后 加 载 文 件 而 不 需要 重启 MySQL 服 务 器 。 


mysql> SET SQL LOG BIN = 0; 
mysql> SOURCE sakila-backup.sql; 
mysql> SET SQL_LOG_BIN = 1; 


需要 注意 的 是 ， 如 果 使 用 SOURCE， 当 定向 文件 到 mysql 时 ， 默 认 情 
况 下 ， 发 生 一 个 错误 不 会 导致 一 批语 句 退 出 。 


如 宁 备 份 做 过 压 给 ， 那 么 不 要 分 别 解压 给 和 加 载 。 应 该 在 单个 操作 
中 完成 解压 迪 和 加 载 。 这 样 做 会 快 很 多 。 


$ gunzip -c sakila-backup.sql.gz | mysql 





如 果 想 用 SOURCE 命 令 加 载 一 个 压缩 文件 ， 可 参考 下 节 中 关于 命名 管 


道 的 讨论 。 


如 果 只 想 恢 复 单 个 表 〈 例 如 ，actor 表 ) ， 要 怎么 做 昵 ? 如 果 数 据 没 
有 分 行 但 有 schema 人 信息， 那么 还 原 数据 并 不 难 。 





$ grep 'INSERT INTO ‘actor’' sakila-backup.sql | mysql sakila 


或 者 ， 如 果 文 件 是 压缩 过 的 ， 那 么 命令 如 下 。 


$ gunzip -c sakila-backup.sql.gz | grep 'INSERT INTO ‘actor’' 








如 果 需 要 创建 表 并 还 原 数 据 ， 而 在 单个 文件 中 有 整个 数据 库 ， 则 必 
须 先 编辑 这 个 文件 。 这 也 是 有 一 些 人 喜欢 导出 每 个 表 到 各 自 文件 中 的 原 
因 。 大 部 分 编辑 器 无 法 应 付 巨 大 的 文件 ， 尤 其 如 果 它 们 是 压缩 过 的 。 另 
外 ， 也 不 会 想 实 际 地 编辑 文件 本 身 一 一 只 想 抽取 相关 的 行 一 一 因此 可 能 
必须 做 一 些 命令 行 工作 。 使 用 grep 来 仅 抽 出 给 定 表 的 INSERT 语 句 较 简 
单 ， 孢 像 我 们 在 前 面 命令 中 做 的 那样 ， 但 得 到 CREATE ”TABLE 语句 比较 
难 。 下 面 是 抽取 所 需 段落 的 sed 脚 本 。 














$ sed -e '/./{H;$!d;}' -e 'x;/CREATE TABLE ‘actor’ /!'d;q' saki 
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去 尝试 弄 清楚 sed 如 何 工作 了 。 只 需要 备份 每 个 表 到 各 目的 文件 ， 或 者 
可 以 更 进一步 ， 分 别 备份 数据 和 Schema。 


加 载 符号 分 隔 文 件 


如 果 是 通过 SELECT INTO 0UTFILE 导 出 的 符号 分 隔 文件 ， 可 以 使 


用 LOAD DATA INFILE 通 过 TARR 2 SOR 也 可 以 用 mysqlimport， 这 
是 LOAD DATA INFILE 的 一 个 包装 。 这 种 方式 依赖 命名 约定 决定 从 哪里 加 
载 一 个 文件 的 数据 。 





我 们 希望 你 导出 了 Schema， 而 不 仪 是 数据 。 如 果 是 这 样 ， 那 应 该 是 
一 个 SQL 导出， 就 可 以 使 用 上 一 节 中 描述 的 撤 术 来 加 载 。 


使 用 LOAD DATA ”INFILE 有 一 个 非常 好 的 优化 技巧 。LOAD DATA 
INFILE 必 须 直 接 从 文本 文件 中 读 取 ， 因 此 ， 如 果 是 压缩 文件 很 多 人 会 在 
ANSE TARAS, RESP AY eA BE oe ZEAE 然而 ， 在 文 持 
FIFO“ 命 名 管道 ”文件 的 系统 如 GNU/Linux 上 ， 对 这 种 操作 有 个 很 好 的 方 
法 。 首 先 ， 创 建 一 个 命名 管道 并 将 解压 缩 数 据 流 到 它 里 面 。 





$ mkfifo /tmp/backup/default/sakila/payment .fifo 

$ chmod 666 /tmp/backup/default/sakila/payment .fifo 

$ gunzip -c /tmp/backup/default/sakila/payment.txt.gz 
> /tmp/backup/default/sakila/payment . fifo 


注意 我 们 使 用 了 一 个 大 于 号 字符 C) KEE IAL AR Sra h 
到 payment.jijo 文 件 中 一 一 而 不 是 在 不 同 程序 之 间 创 建 匿名 管道 的 管道 


[mj 
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FESTE BPAY TTI CIM ASh mi 0 fa FL 
点 说 ，MySQL 服 务 器 可 以 从 管道 中 读 取 解压 缩 后 的 数据 ， 就 像 其 他 文 
件 一 样 。 如 果 可 能 ， 不 要 息 记 禁 挥 二 进 制 日 志 。 








mysql> SET SQL LOG BIN = 0; -- Optional 
-> LOAD DATA INFILE '/tmp/backup/default/sakila/payment. f 


-> INTO TABLE sakila.payment; 


Query OK, 16049 rows affected (2.29 sec) 


Records: 16049 Deleted: 0 Skipped: 0 Warnings: 0 


一 旦 MySQL 加 载 完 数据 ，gunzip 就 会 退出 ， 然 后 可 以 删除 该 命令 管 
道 。 在 MySQL 命 令 行 客 户 端 使 用 SOURCE 命 令 加 载 压缩 的 文件 也 可 以 使 
用 此 技术 。Percona Toolkit 中 的 pt-fifo-split 程 序 还 可 以 帮助 分 块 加 载 大 文 
件 ， 而 不 是 在 单个 大 事务 中 操作 ， 这 样 效率 更 高 。 


你 无 法 从 这 里 到 达 那 里 


本 书 的 作者 之 一 曾 将 一 列 从 DATETIME 变 为 TIMESTAMP， 以 节约 空 
间 并 使 处 理 过 程 更 快 ， 就 像 第 3 章 中 推荐 的 那样 。 结 果 表 定义 如 下 。 


CREATE TABLE tbl ( 
coli timestamp NOT NULL, 
col2 timestamp NOT NULL default CURRENT_TIMESTAMP 
on update CURRENT_TIMESTAMP, 
. more columns ... 


); 


这 个 表 定 义 在 MySQL 5.0. 40 版 本 上 导致 了 一 个 语法 错误 ， 而 这 是 
创建 时 的 版 本 。 a Gee ea no: 
法 预料 的 错误 也 是 测试 备份 重要 的 原因 之 一 。 你 永远 不 会 知道 什么 
阻止 你 还 原 数据 ! 





15.6.3 ”基于 时 间 点 的 恢复 











对 MySQL 做 基于 时 间 扣 的 恢复 常见 的 方法 是 还 原 最 近 一 次 全 备 
份 ， 然 后 从 那个 时 间 点 开始 重 放 二 进 制 日 志 《〈 有 时 叫 “ 前 滚 恢复 ”>) 。 只 
要 有 二 进 制 日 志 ， 就 可 以 恢复 到 任何 希望 的 时 间 点 。 甚 至 可 以 不 太 寓 力 
地 恢复 单个 数据 库 。 





主要 的 缺点 是 二 进 制 日 志 重 放 可 能 会 是 一 个 很 慢 的 过 程 。 它 大 体 上 
等 同 于 复制 。 如 果 有 一 个 备 库 ， 并 且 已 经 测量 到 SQL 线程 的 利用 率 有 多 
高 ， 那 么 对 重 放 二 进 制 日 志 会 有 多 快 束 会 心里 有 数 了 。 例 如 ， 如 果 SQL 
线程 约 有 50%% 被 利用 ， 则 恢复 一 周二 进 制 日 志 的 工作 可 能 在 三 到 四 天 内 
完成 。 








一 个 典型 场景 是 对 有 害 的 语句 的 结果 做 回 滚 操作 ， 例 如 DROP 
TABLE。 让 我 们 看 一 个 简化 的 例子 ， 看 只 有 MyISAM 表 的 情况 下 该 如 何 
做 。 假 如 是 在 半夜 ， 备 份 任务 在 运行 与 下 面 所 列 相当 的 语句 ， 复 制 数据 
库 到 同一 服务 器 上 的 其 他 地 方 。 





mysql> FLUSH TABLES WITH READ LOCK; 


-> serveril# cp -a /var/lib/mysgql/sakila /backup/sakila; 
mysql> FLUSH LOGS; 


-> serveri# mysql -e "SHOW MASTER STATUS" --vertical > /b 
mysql> UNLOCK TABLES; 


然后 ， 假 设 有 人 在 晚 些 时 间 运 行 下 列 语句 。 


mysql> USE sakila; 


mysql> DROP TABLE sakila.payment; 


为 了 便于 说 明 ， 我 们 先 假设 可 以 单独 地 恢复 这 个 数据 库 ( 即 此 库 中 
RAY Rs EEE) 。 再 假设 是 直到 后 来 出 问题 才 意 识 到 这 个 有 问题 








的 语句 。 目 标 是 恢复 数据 库 中 除了 有 问题 的 语句 之 外 所 有 发 生 的 事务 。 
也 就 是 说 ， 其 他 表 已 经 做 的 所 有 修改 部 必须 保持 ， 包 括 有 问题 的 语句 运 
行 之 后 的 修改 。 


这 并 不 是 很 难 做 到 。 首 先 ， 停 掉 MySQL 以 阻止 更 多 的 修改 ， 然 后 
从 备份 中 仅 恢 复 saki1a 数 据 库 。 


Server1# /etc/init.d/mysql stop 
serveri# mv /var/lib/mysql/sakila /var/1lib/mysql/sakila.tmp 
Server1# cp -a /backup/sakila /var/1lib/mysql 


再 到 运行 的 服务 器 的 my.cnf 中 添加 如 下 配置 以 茶 止 正常 的 连接 。 


skip-networking 


socket=/tmp/mysql_recover.sock 


ME UA EHS RA a So 


Server1# /etc/init.d/mysql start 


下 一 个 任务 是 从 二 进 制 日 志 中 分 出 需要 重 放 和 忽略 的 语句 。 事 发 
时 ， 自 半夜 的 备份 以 来 ， 服 务 器 只 创建 了 一 个 二 进 制 日 志 。 我 们 可 以 
用 grep 来 检查 二 进 制 日 志文 件 以 找到 问题 语句 。 


serveri# mysqlbinlog --database=sakila /var/log/mysql/mysql-b 
| grep -B3 -i 'drop table sakila.payment' 

# at 352 

#070919 16:11:23 server id 1 end_log_pos 429 Query thread_id= 
error_code=0 


SET TIMESTAMP=1190232683/* !*/; 


DROP TABLE sakila.payment/*!*/; 





可 以 看 到 ， 我 们 想 忽略 的 语句 在 日 志文 件 中 的 352 位 置 ， 下 一 个 语 
句 位 置 是 429。 可 以 用 下 面 的 命令 重 放 日 志 直 到 352 位 置 ， 然 后 从 429 继 
2 


serveri# mysqlbinlog --database=sakila /var/log/mysql/mysql-b 
--stop-position=352 | mysql -uroot -p 
serveri# mysqlbinlog --database=sakila /var/log/mysql/mysql-b 


--start-position=429 | mysql -uroot -p 


接 下 来 要 做 的 是 检测 数据 以 确保 没有 问题 ， 然 后 关闭 服务 器 并 撤消 
对 my.cnf 的 改变 ， 最 后 重 局 服务 器 。 


15.6.4 更 高 级 的 恢复 技术 


复制 和 基于 时 间 点 的 恢复 使 用 的 是 相同 的 技术 : 服务 器 的 二 进 制 日 
志 。 这 意味 痢 复 制 在 恢复 时 会 是 个 非常 有 帮助 的 工具 ， 哪 人 方式 不 是 很 
明显 。 在 本 市 中 我 们 将 演示 一 些 可 以 用 到 的 方法 。 这 里 列 出 来 的 不 是 一 
个 完全 的 列表 ， 但 应 该 可 以 为 你 根据 需求 设计 恢复 方案 带 来 一 些 想 法 。 
记得 编写 脚本 ， 并 且 对 恢复 过 程 中 需要 用 到 的 所 有 技术 进行 预演 。 


























用 于 快速 恢复 的 延 时 复制 


在 本 章 的 前 面 已 经 提 人 到 ， 如 果 有 一 个 延 时 的 备 库 ， 并 且 在 备 库 执行 
问题 语句 之 前 就 发 现 了 问题 ， 那 么 基于 时 间 点 的 恢复 就 更 快 更 容易 了 。 














恢复 的 过 程 与 本 章 前 几 节 描述 的 有 点 不 一 样 ， 但 思路 是 相同 的 。 停 
止 备 库 ， 用 START SLAVE ”UNTIL 来 重 放 事件 直到 要 执行 问题 语句 。 接 
着 ， 执 行 SET GLOBAL SQL_SLAVE_SKIP_COUNTER=1 来 跳 过 问题 语句 。 如 
果 想 跳 过 多 个 事件 ， 可 以 设置 一 个 大 于 1 的 值 ( 或 简单 地 使 用 CHANGE 
MASTER T0 来 前 移 备 库 在 日 志 中 的 位 置 ) 。 





然后 要 做 的 就 是 执行 START SLAVE， 让 备 库 执行 完 所 有 的 中 继 日 
志 。 这 样 就 利用 备 库 完成 了 基于 时 间 扣 的 恢复 中 所 有 元 长 的 工作 。 现 在 
可 以 将 备 库 提升 为 主 库 ， 整 个 恢复 过 程 基本 上 没有 中 断 服 务 。 


























即使 没有 延 时 的 备 库 来 加 速 恢复 ， 普 通 的 备 库 也 有 好 处 ， 至 少 会 把 
主 库 的 二 进 制 日 志 复 制 到 另外 的 机 器 上 。 如 采 主 库 的 磁盘 坏 了 ， 备 库 上 
的 中 继 日 志 可 能 束 是 唯一 能 够 获取 到 的 最 接近 主 库 二 进 制 日 志 的 东西 
Ta 
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还 有 另外 一 种 使 用 复制 来 做 恢复 的 方法 : 设置 日 志 服 务 器 。 我 们 感 
觉 复制 比 mysqlbinlog 更 可 靠 ，mysqlbipnlog 可 能 会 有 一 些 导致 异常 行为 的 
奇怪 的 Bug 和 不 常见 的 情况 。 使 用 日 志 服 务 器 进行 恢复 比 mysqlbinlog 更 
灵活 更 简单 ， 不 仅 因 为 START SLAVE UNTIL 选 项 ， 还 因为 那些 可 以 采 
用 的 复制 规则 (例如 replicate-do-table〉 。 使 用 日 志 服 务 器 ， 相 对 其 
他 的 方式 来 说 ， 可 以 做 到 更 复杂 的 过 滤 。 


例如 ,使 用 日 志 服 务 絮 可 以 轻松 地 恢复 单个 表 。 而 用 mysqlbinlog 和 
命令 行 工 具 则 要 困难 得 多 一 一 事实 上 ， 这 样 做 太 复 杂 了 ， 所 以 我 们 一 般 
不 建议 进行 尝试 。 





假设 粗心 的 开 用 人 员 像 前 面 的 例子 一 样 删除 了 同样 的 表 ， 现 在 想 恢 
复 此 误 操作 ， 但 叉 不 想 让 整个 服务 器 退 到 昨 晚 的 备份 。 下 面 是 利用 日 志 
服务 器 进行 恢复 的 步 又 : 


1. 将 需要 恢复 的 服务 器 叫 作 server1。 

2. 在 另外 一 台 叫 做 server2 的 服务 器 上 恢复 上 昨 晚 的 备份 。 在 这 人 台 服 务 
器 上 运行 恢复 进程 ， 以 免 在 恢复 时 犯错 而 导致 事情 更 糟 。 

3. 按照 第 10 章 的 做 法 设置 日 志 服 务 器 来 接收 server1 的 二 进 制 日 志 
(复制 日 志 到 另外 一 个 服务 器 并 设置 日 志 服 务 器 是 个 好 想法 ， 但 是 
要 格外 注意 。) 

4. 改变 server2 的 配置 文件 ， 增 加 如 下 内 容 。 











replicate-do-table=sakila.payment 


5. 重启 server2， 然 后 用 CHANGE MASTER TO 来 让 它 成 为 日 志 服 务 器 的 
备 库 。 配 置 它 从 昨 晚 备份 的 二 进 制 日 志 坐 标 读 取 。 这 时 候 切 记 不 要 
运行 START SLAVE. 

. 检测 server2 上 的 SHOW SLAVE STATUS 的 输出 ， 验 证 一 切 正 常 。 要 三 
思 而 行 ! 

. 找到 二 进 制 日 志 中 间 题 语句 的 位 置 ， 在 server2 上 执行 START SLAVE 
UNTIL 来 重 放 事 件 直 到 该 位 置 。 

. 在 server2 上 用 STOP ”SLAVE 停 挥 复制 进程 。 现 在 应 该 有 被 删除 表 ， 
因为 现在 从 库 停 止 在 被 删除 之 前 的 时 间 点 。 

. 将 所 需 表 从 server2 复 制 到 server1。 


aD 


N 


Co 





WO 





只 有 没有 任何 多 表 的 UPDATE、DELETE 或 1NSERT 语 名 操作 这 个 表 时 ， 
上 述 流程 才 是 可 行 的 。 任 何 这 样 的 多 表 操 作 语 句 在 被 记录 的 时 候 ， 可 能 
是 基于 多 个 数据 库 的 状态 ， 而 不 仅仅 是 当前 要 恢复 的 这 个 数据 库 ， 所 以 











这 样 恢复 出 来 的 数据 可 能 和 原始 的 有 所 不 同 。《〈 只 有 在 使 用 基于 语句 的 
二 进 制 日 志 时 才 会 有 这 个 问题 ， 如 果 使 用 的 是 基于 行 的 日 志 ， 重 放 过 程 
不 会 碰 到 这 个 错误 。) 








15.6.5 InnoDB AAKE 


InnoDB 在 每 次 启动 时 都 会 检测 数据 和 日 志文 件 ， 以 确认 是 否 需 要 
执行 恢复 过 程 。 而 且 ， ”InnoDB 的 恢复 过 程 与 我 们 在 本 章 之 前 谈论 的 不 
古 一 回 事 。 它 并 不 是 恢复 备份 的 数据 ， 而 是 根据 日 志文 件 将 事务 应 用 到 
数据 文件 ， 将 未 提交 的 变更 从 数据 文件 中 回 深 。 

















精确 地 描述 InnoDB 如 何 进行 恢复 工作 ， 这 有 点 太 过 复杂 。 我 们 要 





大 部 分 情况 下 InnoDB 可 以 很 好 地 解决 问题 。 除 非 MySQL 有 Bug 或 硬 
件 有 问题 ， 人 否则 不 需要 做 任何 非常 规 的 事情 ， 哪 伯 是 服务 器 意外 断 电 。 
InnoDB 会 在 局 动 时 执行 正常 的 恢复 ， 然 后 就 一 切 正 常 了 。 在 日 志文 件 
中 ， 可 以 看 到 如 下 信息 。 





InnoDB: Doing recovery: scanned up to log sequence number 0 4 


InnoDB: Starting an apply batch of log records to the databas 





InnoDB 会 在 日 志文 件 中 输出 恢复 进度 的 百分比 信息 。 有 些 人 说 下 
到 整个 过 程 完 成 才能 看 到 这 些 信 息 。 耐 心 点 ， 这 个 恢复 过 程 是 急 不 来 
的 。 如 果 心 忽而 杀 挥 进程 并 重启 ， 只 会 导致 需要 更 长 的 恢复 时 间 。 











如 果 服 务 器 硬件 有 严重 问题 ， 例 如 内 存 或 磁盘 损坏 ， 或 遇 到 了 
MySQL 或 InnoDB 的 Bug， 可 能 就 不 得 不 介入 ， 这 时 要 么 进行 强制 恢复 ， 


要 么 阻止 正常 恢复 发 生 。 
InnoDBin > Ky JE 
InnoDB 非 常 健壮 且 可 靠 ， 并 且 有 许多 的 内 建安 全 检测 来 防止 、 检 


测 和 修复 损坏 的 数据 比 其 他 MySQL 存 储 引 擎 要 强 很 多 。 然 而 ， 
InnoDB 并 不 能 保护 上 自己 避免 一 切 错误 。 











最 起 码 ，InnoDB 依 赖 于 无 缓存 的 IO 调用 和 fsync () 调用 ， 直 到 数据 
完全 地 写 入 到 物理 介质 上 才 会 返回 。 如 果 硬 件 不 能 保证 写 入 的 持久 化 ， 
InnoDB 也 就 不 能 保证 数据 的 持久 ， 朋 尝 就 有 可 能 导致 数据 损坏 。 


很 多 InnoDB 损 坏 问题 都 是 与 硬件 有 关 的 (例如 ， 因 电力 问题 或 内 
存 损坏 而 导致 损坏 页 的 写 入 ) 。 然 而 ， 在 我 们 的 经 验 中 ， 错 误 配 置 的 硬 
件 是 更 多 的 问题 之 源 。 禹 见 的 错误 配置 包括 打开 了 不 包含 电池 备份 单元 
的 RAID 卡 的 回 写 组 在， 或 打开 了 人 硬盘 驱动 右 本 身 的 回 写 组 在。 这 些 错 
误 将 会 导致 控制 器 或 驱动 右 “ 撒 话 ”， 在 数据 实际 上 只 写 入 到 回 写 缓存 上 
而 不 是 磁盘 上 时 ， 却 说 fsync 0 已 经 完成 。 换 句 话 说， 硬件 没有 提供 保 
持 InnoDB 数 据 安 全 的 保证 。 








有 时 候 机 器 默认 就 会 这 样 配置 ， 因 为 这 样 做 可 以 得 到 更 好 的 性 能 
一 一 对 于 茶 些 场景 确实 很 好 ， 但 是 对 事务 数据 服务 来 说 却 是 个 大 问题 。 





如 果 在 网 络 附加 存储 (NAS) 上 运行 mnoDB， 也 可 能 会 遇 到 损 
坏 ， 因 为 对 NAS 设 备 来 说 完成 fsync () 只 是 意味 着 设备 接收 到 了 数据 。 
如 果 InnoDB 朋 误 ， 数 据 是 安全 的 ， 但 如 果 是 NAS 设 备 骨 溃 束 不 一 定 
as 


严重 的 损坏 会 使 mnoDB 或 MySQL 骨 溃 ， 而 不 那么 严重 的 损坏 则 可 
能 只 是 由 于 日 志文 件 未 真正 同步 到 磁盘 而 丢掉 了 某 些 事务 。 











如 何 恢复 损坏 的 InnoDB 数 据 





InnoDB 损 坏 有 三 种 主要 类 型 ， 它 们 对 数据 恢复 有 着 不 同 程度 的 要 
求 。 


二 级 索引 损坏 


一 般 可 以 用 0PTIMIZE TABLE 来 修复 损坏 的 二 级 索引 ; 此外， 也 
可 以 用 SELECT INTO ”OUTFILE， 删 除 和 重建 表 ， 然 后 LOAD DATA 
INFILE 的 方法 。 (也 可 以 将 表 改 为 使 用 MyISAM 再 改 回来 。〉 这些 
过 程 都 是 通过 构建 一 个 新 表 重 建 受 影响 的 索引 ， 来 修复 损坏 的 索引 
数据 。 


聚 禾 索引 损坏 


如 果 是 聚 秘 索引 损坏 ， 也 许 只 能 使 用 innodb_force_recovery 
选项 来 导出 表 〈 关 于 这 点 后 续 会 讲 更 多 ) 。 有 时 导出 过 程 会 让 
InnoDB Ait; 如 果 出 现 这 样 的 情况 ， 或 许 需 要 跳 过 导致 骨 演 的 损 
坏 页 以 导出 其 他 的 记录 。 聚 艇 索引 的 损坏 比 二 级 索引 要 更 难 修复 ， 
因为 它 会 影响 数据 行 本 身 ， 但 在 多 数 场合 下 仍然 只 需要 修复 受 影响 
的 表 。 











损坏 系统 结构 


系统 结构 包括 InnoDB 事 务 日 志 、 表 空间 的 撤销 日 志 (undo 


log) 区 域 和 数据 字典 。 这 种 损坏 可 能 需要 做 整个 数据 库 的 导出 和 
还 原 ， 因 为 InnoDB 内 部 绝 大 部 分 的 工作 都 可 能 受到 影 啊 。 


一 般 可 以 修复 损坏 的 二 级 索引 而 不 丢失 数据 。 然 而 ， 另 外 两 种 情形 
经 常会 引起 数据 的 丢失 。 如 有 果 已 经 有 备份 ， 那 最 好 还 是 从 备份 中 还 原 ， 
而 不 是 试看 从 损坏 的 文件 里 去 提取 数据 。 


如 果 必 须 从 损坏 的 文件 里 提取 数据 ， 那 一 般 过 程 是 先 尝试 让 
InnoDB 运 行 起 来 ， 然 后 使 用 SELECT INTO OUTFILE 导 出 数据 。 如 果 服 务 
WOAR, HERRAS InnoDB S J m AA n A InnoDB 
止 常 规 恢 复 和 后 台 进 程 的 运行 。 这 样 也 许可 以 启动 服务 器 ， 然 后 在 缺少 
或 不 做 完整 性 检查 的 情况 下 做 逻辑 备份 。 





innodb_force_recovery 参 数控 制 着 InnoDB 在 启动 和 常规 操作 时 要 
做 哪 一 种 类 型 的 操作 。 通 党 情况 下 这 个 值 是 0， 可 以 增 大 到 6。MySQL 
使 用 手册 里 记录 了 每 个 数值 完 竟 会 产生 什么 行为 ;在 此 我 们 不 会 重复 这 
段 信 息 ， 但 是 要 告诉 你 : 在 有 点 危险 的 前 提 下 ， 可 以 把 这 个 数值 调 高 到 
4。 使 用 这 个 设置 时 ， 知 有 数据 页 损坏 ， 将 会 丢失 一 些 数 据 ; 如果 将 数 
值 设 得 更 高 ， 可 能 会 从 损坏 的 页 里 提取 到 坏 掉 的 数据 ， 或 者 增加 执 
行 SELECT INTO ”QUTFILES 时 崩 演 的 风险 。 换 句 话 说 ， 这 个 值 直 到 4 都 对 
数据 没有 损害 ， 但 可 能 丧失 修复 问题 的 机 会 ， 而 到 5 和 6 会 更 主动 地 修 
复 问 题 ， 但 损害 数据 的 风险 也 会 很 大 。 








当 把 innodb_force_recovery 设 为 大 于 0 的 茶 个 值 时 ，InnoDB 基本 
上 是 只 读 的 ， 但 是 仍然 可 以 创建 和 删除 表 。 这 可 以 阻止 进一步 的 损坏 ， 
InnoDB 会 放松 一 些 常 规 检 查 ， 以 便 在 发 现 坏 数据 时 不 会 特意 崩 尝 。 在 
第 规 操作 中 ， 这 样 做 是 有 安全 保障 的 ， 但 是 在 恢复 时 ， 最 好 还 是 避免 这 
样 做 。 如 果 需 要 执行 InnoDB 强制 恢复 ， 有 个 好 主意 是 配置 MySQL， 使 











它 在 操作 完成 之 前 不 接受 常规 的 连接 请 求 。 


如 果 InnoDB 的 数据 损坏 到 了 根本 不 能 启动 MySQL 的 程度 ， 还 可 以 
使 用 Percona 出 品 的 InnoDB Recovery Toolkit 从 表 空 间 的 数据 文件 里 直接 
抽取 数据 。 这 个 工具 由 本 书 的 几 个 作者 开发 ， 可 以 从 
http:Mwww.percona.comysoftware 免 费 获 取 。Percona Server 还 有 人 允许 服务 
器 在 某 些 表 损 坏 时 仍 能 运行 的 选项 ， 而 不 是 像 MySQL 那 样 在 单个 表 损 
坏 页 被 检测 出 时 就 默认 强制 朋 误 。 


15.7 备份 和 恢复 工具 


有 各 种 各 样 的 好 的 和 不 是 那么 好 的 备份 工具 。 我 们 喜欢 对 LVM 使 
用 mylvmbackup 做 快照 备份 ， 使 用 Percona Xtrabackup 〈 开 源 ) 或 MySQL 
Enterprise Backup〔 收 费 ) 做 InnoDB 热 备份 。 不 建议 对 大 数据 量 使 
用 mysqldump， 因 为 它 对 服务 器 有 影响 ， 并 且 漫 长 的 还 原 时 间 不 可 预 
知 。 








有 一 些 备份 工具 已 经 出 现 多 年 了 ， 不 幸 的 是 有 些 已 经 过 时 。 最 明显 
的 例子 是 Maatkit 的 mk-parallel-dump， 它 从 没有 正确 运行 ， 甚 至 被 重新 
设计 过 好 几 次 还 是 不 行 。 男 外 一 个 工具 是 mysqlhotcopy， 它 适合 于 古老 
的 MyISAM 表 。 大 部 分 场景 下 这 两 个 工具 都 无 法 让 人 相信 数据 是 安全 
的 ， 它 们 会 使 人 误 以 为 备份 了 数据 实际 上 却 非 如 此 。 例 如 ， 当 使 用 
InnoDB 的 innodb_file_per_table 时 ，mysglhotcopy 会 复制 .ibd 文 件 ， 这 
会 使 一 些 人 误 以 为 InnoDB 的 数据 已 经 备份 完成 。 在 某 些 场景 下 ， 这 两 
个 工具 都 对 服务 器 有 一 些 负 面 影响 。 

















如 果 你 在 2008 或 2009 年 时 在 看 MySQL 的 路 线 图 ， 可 能 听 说 过 
MySQL 在 线 备份 。 这 是 一 个 可 以 用 SQL 命令 来 开始 备份 和 还 原 的 特性 。 
它 原本 是 规划 在 MySQL 5.2 版 本 中 ， 后 来 重新 安排 在 了 MySQL 6.0 中 ， 
再 后 来 ， 据 我 们 所 知 被 永久 取消 了 。 





15.7.1 MySQL Enterprise Backup 


这 个 工具 之 前 叫做 InnoDB Hot Backup 或 ibbackup， 是 从 Oracle 购 买 


的 MySQL Enterprise 中 的 一 部 分 。 使 用 此 工具 备份 不 需要 停止 MySQL， 
也 不 需要 设置 锁 或 中 断 正 第 的 数据 库 活 动 〈 但 是 会 对 服务 器 造成 一 些 额 
外 的 负载 )。 它 支持 类 似 压缩 备份 、 增 量 备份 和 到 其 他 服务 器 的 流 备 份 
的 特性 。 这 是 MySQL“ 官 方 ”的 备份 工具 。 


15.7.2 Percona XtraBackup 





Percona XtraBackup 与 MySQL Enterprise Backup 在 很 多 方面 都 非常 
类 似 ， 但 它 是 开源 并 且 免 费 的 。 除 了 核心 备份 工具 外 ， 还 有 一 个 用 Perl 
写 的 封装 脚本 ， 可 以 提供 更 多 高 级 功能 。 它 文 持 类 似 瀛 、 增 量 、 压 纵 和 
多 线程 (并 行 ) 备份 操作 。 也 有 许多 特别 的 功能 ， 用 以 降低 在 高 负载 的 
系统 上 备份 的 影响 。 


Percona XtraBackup 的 工作 方式 是 在 后 人 台 线 程 不 断奶 踩 InnoDB 日 志 
文件 尾部 ， 然 后 复制 InnoDB 数 据 文件 。 这 是 个 轻 量 级 侵入 过 程 ， 依 靠 
特别 的 检测 机 制 确保 复制 的 数据 是 一 致 的 。 当 所 有 的 数据 文件 被 复制 
Wo 日 志 复 制 线程 束 结 束 了 。 结 果 是 在 不 同 的 时 间 点 的 所 有 数据 的 副 
本 。 然 后 可 以 使 用 InnoDB 崩 尝 恢 复 代 人 码 应 用 事务 日 志 ， 以 达到 所 有 数 
据 文 件 一 致 的 状态 。 这 一 步 叫 作 准 备 过 程 。 一 旦 准备 好 ， 备 份 就 会 完全 
一 致 ， 并 且 包 含 文件 复制 过 程 最 后 时 间 点 已 经 提交 的 事务 。 一 切 都 在 
MySQL 外 部 完成 ， 因 此 不 需要 以 任何 方式 连接 或 访问 MySQL 。 








包装 脚本 包含 通过 复制 备份 到 原 位 置 的 方式 进行 恢复 的 能 力 。 还 有 
Lachlan Mulcahy 的 XtraBack ”Manager 项 目 ， 功 能 更 多 ， 详 情 参 见 
http://code.google.com/p/xtrabackup-manager/。 


15.7.3 mylvmbackup 


Lenz Grimmer 的 
mylvmbackup (http://lenz.homelinux.org/mylvmbackup/) 是 一 个 Perl 脚 
本 ， 它 通过 LVM 人 快照 帮助 MySQL 自动 备份 。 此 工具 首先 获取 全 局 读 
锁 ， 创 建 快照 ， 释 放 锁 。 然 后 通过 tar 压 缩 数 据 并 移 除 快照 。 它 通过 备份 
时 的 时 间 戳 命名 压缩 包 。 它 还 有 几 个 高 级 选项 ， 但 总 的 来 说 ， 这 是 一 个 
执行 LVM 备 份 的 非常 简单 明了 的 工具 。 


15.7.4 Zmanda Recovery Manager 


适用 于 MySQL 的 Zmanda Recovery Manager， 或 
ZRM (http:/www.zmanda.com) ， 有 免费 《GPL ) 和 商业 两 种 版 本 。 企 
业 版 提供 基于 网 页 图 形 接口 的 控制 台 ， 用 来 配置 、 和 备份、 验证、 恢复 、 
报告 和 调度 。 开 源 的 版 本 包含 了 所 有 核心 功能 ， 但 缺少 一 些 额 外 的 特 
性 ， 例 如 基于 网 页 的 控制 台 。 


正如 其 名 ，ZRM 实 际 上 是 一 个 备份 和 恢复 管理 器 ， 而 并 非 单一 工 
具 。 它 封 疾 了 自 有 的 基于 标准 工具 和 技术 ， 例 如 mysqldqump、LVM 快 照 
和 Percona XtraBackup 等 之 上 的 功能 。 它 将 许多 见长 的 备份 和 恢复 工作 
进行 了 上 自动化。 





15.7.5 mydumper 


儿 名 MySQL 现 在 和 之 前 的 工程 师 利 用 他 们 多 年 的 经 验 创建 了 


mydurmper， 用 来 将 代 mysqldump。 这 是 一 个 多 线程 〈 并 发 ) 的 备份 和 还 
原 MySQL 和 Drizzle 的 工具 集 ， 有 许多 很 好 的 特性 。 大 概 有 许多 人 会 发 
现 多 线程 备份 和 还 原 的 速度 是 这 个 工具 最 吸引 人 的 特色 。 尽 管 我 们 知道 
有 些 人 在 生产 环境 中 使 用 ， 但 我 们 还 没有 在 任何 产品 中 使 用 的 经 验 。 可 
以 在 http:Mwww.mydumper.org 找 到 更 多 信息 。 





15.7.6 mysqldump 


大 部 分 人 在 使 用 这 个 与 MySQL 一 起 发 行 的 程序 ， 因 此 ， 尽 管 它 有 
缺点 ， 但 创建 数据 和 Schema 的 逻辑 备份 最 常见 的 选择 还 是 mysqldump。 
这 是 一 个 通用 工具 ， 可 以 用 于 许多 的 任务 ， 例 如 在 服务 器 间 复 制 表 。 





$ mysqldump --host=server1 test t1 | mysql --host=server2 tes 


我 们 在 本 章 中 展示 了 几 个 用 mysqldump 创 建 逻辑 备份 的 例子 。 该 工 
具 上 默认 会 输出 包含 创建 表 和 填充 数据 的 所 有 需要 的 命令 ; 也 有 选项 可 以 
控制 输出 视图 、 存 储 代码 和 人 触及 占 。 下 面 有 一 些 典 型 的 例子 。 


。 对 服务 器 上 所 有 的 内 容 创 建 逻 辑 备 份 到 单个 文件 中 ， 每 个 库 中 所 有 
的 表 在 相同 逻辑 时 间 点 备份 : 


$ mysqldump -all-databases > dump.sql 


。 创建 只 包含 Sakila 示 例 数据 库 的 逻辑 备份 : 


$ mysqldump -databases sakila >dump.sql 


e 创建 只 包含 sakila.actor 表 的 逻辑 备份 ; 


$ mysqldump sakila actor > dump.sql 


可 以 使 用 --result-file 选 项 来 指定 输出 文件 ， 这 可 以 帮助 防止 在 
Windows 上 发 生 换 行 符 转换 : 


$ mysqldum sakila actor -result -file=dump.sql 


mysqldump 的 默认 选项 对 于 大 多 数 备份 目的 来 说 并 不 够 好 。 多 半 要 
显 式 地 指定 某 些 选项 以 改变 输出 。 下 面 是 一 些 我 们 经 常 使 用 的 选项 ， 可 
以 让 mysqldump 蝎 加 高 效 ， 输 出 更 容易 使 用 。 


—-opt 


启用 一 组 优化 选项 ， 包 括 关 闭 缓 冲 区 CE STEMS ERA 
T) ， 导 出 数据 时 把 更 多 的 数据 写 在 更 少 的 SQL 语句 里 ， 以 便 在 加 
载 的 时 候 更 有 效率 ， 以 及 做 其 他 一 些 有 用 的 事情 。 更 多 细 市 可 以 阅 
读 帮 助 文 件 。 如 果 关 闭 了 这 组 选项 ，mysgldump 会 在 把 表 写 到 磁盘 
之 前 ， 把 它们 都 导出 到 内 存 里 ， 这 对 于 大 型 的 表 而 言 是 不 切实 际 
的 。 


—-allow-keywords, —-quote-names 

使 用 户 在 导出 和 恢复 表 时 ， 可 以 使 用 保留 字 作 为 表 的 名 字 。 
—-comp |ete-insert 

使 用 户 能 在 不 完全 相同 列 的 表 之 间 移 动 数据 。 


—-tz-utc 





使 用 户 能 在 具有 不 同时 区 的 服务 器 之 间 移 动 数据 。 
一 |ock-all1-tables 

使 用 FLUSH TABLE WITH READ LOCK 来 获取 全 局 一 致 的 备份 。 
——-tab 

用 SELECT INTO OUTFILE 导 出 文件 。 
—-skip-extended-insert 


使 每 一 行 数 据 都 有 自己 的 INSERT 语 句 。 必 要 时 这 可 以 用 于 有 
选择 地 还 原 某 些 行 。 它 的 代价 是 文件 更 大 ， 导 入 到 MySQL 时 开销 
会 更 大 。 因 此 ， 要 确保 只 有 在 需要 时 才 启 用 它 。 








如 果 在 mysgldump 上 使 用 --databases 或 --all-databases 选 项 ， 那 么 最 
终 寻 出 的 数据 在 每 个 数据 库 中 都 一 致 ， 因 为 mysqldump 会 在 同一 时 间 锁 
定 并 导出 一 个 数据 库 里 的 所 有 表 。 然 而 ， 来 自 不 同 数据 库 的 各 个 表 束 未 
必 是 相互 一 致 的 。 使 用 --lock-all-tables 选 项 可 以 解决 这 个 问题 。 





对 于 InnoDB 备 份 ， 应 该 增加 --single-transaction 选 项 ， 这 会 使 用 
InnoDB 的 MVCC 特 性 在 单个 时 间 点 创建 一 个 一 致 的 备份 ， 而 不 需要 使 用 
LOCK TABLES 锁 定 所 有 表 。 如 果 增 加 --master-data 选 项 ， 备 份 还 会 包 
括 在 备份 时 服务 器 的 二 进 制 日 志文 件 位 置 ， 这 对 基于 时 间 点 的 恢复 和 设 
置 复制 非常 有 帮助 。 然 而 也 要 知道 ， 获 得 日 志 位 置 时 需要 使 用 FLUSH 
TABLES WITH READ LOCK 冻 结 服务 器 。 








15.8 备份 脚本 化 


为 备份 写 一 些 脚本 是 标准 做 法 。 展 示 一 个 示例 程序 ， 其 中 必定 有 很 
多 辅助 内 容 ， 这 只 会 增加 篇 幅 ， 在 这 里 我 们 更 愿意 列举 一 些 典型 的 备份 
脚本 功能 ， 展 示 一 些 Pen 脚本 的 代码 片断 。 你 可 以 把 这 些 当 作 可 重用 的 
代码 块 ， 在 创建 自己 的 脚本 时 可 以 直接 组 合 起 来 使 用 。 下 面 将 大 致 按照 
使 用 顺序 来 展示 。 


安全 检测 
安全 检测 可 以 让 上 自己 和 同事 的 生活 更 简单 点 一 一 打开 严格 的 错 
误 检测 ， 并 且 使 用 英文 变量 名 。 


use strict; 
use warnings FATAL => ‘all'; 


use English qw(-no_match_vars); 


如 果 是 在 Bash 下 使 用 脚本 ， 还 可 以 做 更 严格 的 变量 检测 。 下 面 的 设 
置 会 让 符 换 中 有 未 定义 的 变量 或 程序 出 错 退 出 时 产生 一 个 错误 。 











set -u; 


set -e; 





增加 命令 行 选项 处 理 最 好 的 方法 是 用 标准 库 ， 它 已 包含 在 Perl 
标准 安装 中 。 


use Getopt::Long; 
Getopt::Long: :Configure('no_ignore_case', 'bundling'); 


GetOptions(....); 


连接 MySQL 





标准 的 Perl DBI 库 几乎 无 所 不 在 ， 提 供 了 许多 强大 和 灵活 的 功能 。 
使 用 详情 请 参阅 Perldoc 〈 可 从 Pttp:Vsearch.cpna.org 在 线 获取 ) 。 可 以 像 
下 面 这 样 使 用 DBI 来 连接 MySQL。 


use DBI; 
$dbh = DBI->connect( 


'DBI:mysql:;host-localhost', 'user', 'p4ssword', {RaiseErro 


对 于 编写 命令 行 脚本 ， 请 阅读 标准 mysq! 程 序 的 --help 参 数 的 输出 文 
本 。 它 有 许多 选项 可 更 友好 地 文 持 脚 本 。 例 如 ， 在 Bash 中 通 历数 据 库 列 
表 如 下 。 





mysql -ss -e 'SHOW DATABASES' | while read DB; do 
ech "${DB}" 


done 


停止 和 启动 MySQL 


i 


停止 和 启动 MySQL 最 好 的 方法 是 使 用 操作 系统 推荐 的 方法 ， 例 如 
运行 /etc/init.d/mysql init 脚 本 或 通过 服务 控制 〈 在 Windows 下 ) 。 然 而 这 
并 不 是 唯一 的 方法 。 可 以 从 Perl 中 用 一 个 已 存在 的 数据 库 连接 来 天 闭 数 
据 库 。 


$dbh->func("shutdown", '‘admin'); 

当 这 个 命令 完成 时 不 要 太 指 望 MySQL 已 经 被 关闭 一 一 它 可 能 正在 
关闭 的 过 程 中 。 也 可 以 通过 命令 行 来 停 掉 MySQL。 

$ mysqladmin shutdown 
获取 数据 库 和 表 的 列表 


每 个 备份 脚本 都 会 查询 MySQL 以 获取 数据 库 和 表 的 列表 。 要 注意 
那些 实际 上 并 不 是 数据 库 的 条 目 ， 例 如 一 些 日 志 系 统 中 的 lost+found 文 
件 夹 和 INFORMATION_SCHEMA。 也 要 确保 脚本 已 经 准备 好 应 付 视图 ， 同 时 
也 要 知道 SHOW TABLE STATUS 在 InnoDB 中 有 大 量 数据 时 可 能 耗 时 很 长 。 








mysql> SHOW DATABASES; 
mysql> SHOW /*!50002 FULL*/ TABLES FROM <database>; 
mysql> SHOW TABLE STATUS FROM <database>; 


对 表 加 锁 、 刷 新 并 解锁 


如 宁 需 要 对 一 个 或 多 个 表 加 锁 并 且 / 或 刷新 ， 要 么 按 名 字 锁 住 
所 需 的 表 ， 有 要么 使 用 全 局 锁 锁 住所 有 的 表 。 


mysql> LOCK TABLES <database.table> READ [, ...]; 
mysql> FLUSH TABLES; 

mysql> FLUSH TABLES <database.table> [, ...]j; 
mysql> FLUSH TABLES WITH READ LOCK; 

mysql> UNLOCK TABLES; 
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会 有 新 表 创 建 ， 或 有 表 被 删除 或 重 命 名 。 如 果 一 个 表 一 个 表 地 锁 住 
然后 备份 ， 将 无 法 得 到 一 致 性 的 备份 。 


刷新 二 进 制 日 志 


让 服务 器 开始 一 个 新 的 二 进 制 日 志 非 常 简单 〈 一 般 在 锁 住 表 后 
但 在 备份 前 做 这 个 操作 ) : 


mysql> FLUSH LOGS; 


这 样 做 使 得 恢复 和 增 量 备 份 更 简单 ， 因 为 不 需要 考虑 从 一 个 日 
志文 件 中 间 开 始 操作 。 此 操作 会 有 一 些 副作用 ， 比 如 刷新 和 重新 打 
开 错误 日 志 ， 也 可 能 销毁 老 的 日 志 条 目 ， 因 此 ， 注 意 不 要 扔 掉 需 要 
用 到 的 数据 。 








获取 二 进 制 日 志 位 置 


脚本 应 该 获取 并 记录 主 库 和 备 库 的 状态 
主 库 或 备 库 。 


即使 服务 喜 仅 是 个 





mysql> SHOW MASTER STATUS\G 
mysql> SHOW SLAVE STATUS\G 





执行 这 两 条 语句 并 忽略 错误 ， 以 使 脚本 可 以 获取 到 所 有 可 能 的 


导出 数据 


最 好 的 选择 是 使 用 mysqldump、mydumper 或 SELECT INTO 
OUTF ILE. 


复制 数据 
可 以 使 用 本 章 中 省 示 的 任何 一 个 方法 。 


这 些 都 是 构造 备份 脚本 的 基础 。 比 较 困 难 的 部 分 是 将 管理 和 恢复 任 
务 脚 本 化 。 如 果 想 获得 实现 的 灵感 ， 可 以 看 看 ZRM 的 源码 。 


15.9 me 








每 个 人 都 知道 需要 备份 ， 但 并 不 是 每 个 人 都 意识 到 需要 的 是 可 恢复 
的 备份 。 有 许多 方法 可 以 规划 能 满足 恢复 需求 的 备份 。 为 了 避免 这 个 问 
题 ， 我 们 建议 明确 并 记录 恢复 点 目标 和 恢复 时 间 目 标 ， 并 且 在 选择 备份 
系统 时 将 其 作为 参考 。 








在 日 营 基 础 上 做 恢复 测试 以 确保 备份 可 以 正 向 工作 也 很 重要 。 设 置 
mysqldump 并 让 它 在 每 天 晚上 运行 是 很 简单 的 ， 但 很 多 时 候 不 会 意识 到 
数据 随 着 时 间 已 经 增长 到 可 能 需要 儿 天 或 几 周 才能 再 次 导入 的 地 步 。 最 
糟糕 的 是 当 你 真正 需要 恢复 的 时 候 ， 才 发 现 原 来 需要 这 人 么 长 时 间 。 盈 不 
念 张 地 说 ， 一 个 在 几 个 小 时 内 完成 的 备份 可 能 需要 几 周 时 间 来 恢复 ， 具 
体 取 决 于 硬件 、Schema、 索 引 和 数据 。 














不 要 掉 进 备 库 就 是 备份 的 陷阱 。 备 库 对 生成 备份 是 一 个 干涉 较 少 的 
源 ， 但 它 不 是 备份 本 身 。 对 于 RAID 卷 、SAN 和 文件 系统 快照 ， 也 同样 
如 此 。 确 保 备份 可 以 通过 DROP TABLE 测 试 ( 或 “遭受 黑客 攻击 ”的 测 
AD) ， 也 要 能 通过 数据 中 心 失败 的 测试 。 如 果 是 基于 备 库 生成 备份 ， 确 
保 使 用 pt-table-checksum 验 证 复制 的 完整 性 。 


我 们 最 喜欢 的 两 种 备份 方式 ， 一 种 是 从 文件 系统 或 者 SAN 快 照 中 直 
接 复 制 数 据 文件 ， 一 种 是 使 用 Percona XtraBackup 做 热 备 份 。 这 两 种 方 
法 都 可 以 无 侵入 地 实现 二 进 制 的 原始 数据 备份 ， 这 样 的 备份 可 以 通过 局 
动 mysqld 实 例 检查 所 有 的 表 进行 验证 。 有 了 时候 甚至 可 以 一 石 二 鸟 ， 可 以 
在 开发 或 者 预 发 环境 每 天 将 备份 进行 还 原来 执行 恢复 测试 ， 然 后 再 将 数 
据 导出 为 逻辑 备份 。 我 们 也 建议 备份 二 进 制 日 志 ， 并 且 尽 可 能 久 地 保留 











多 份 备 份 的 数据 和 二 进 制 文件 。 这 样 即 使 最 近 的 备份 无 法 使 用 了 ， 还 可 
以 使 用 较 老 的 备份 来 执行 恢复 或 者 创建 新 的 备 库 。 








除了 提 到 的 许多 开源 工具 ， 也 有 很 多 很 好 的 商业 备份 工具 ， 其 中 最 
重要 的 是 MySQL Enterprise Backup。 对 包括 在 GUI SQL 编辑 器 、 服 务 器 
管理 工具 和 类 似 工具 中 的 “备份 ”工具 要 特别 小 心 。 同 样 地 ， 有 一 些 出 
品 “ 一 招 吃 和 过 天 下 ”的 备份 工具 的 公司 ， 对 于 它们 宣称 的 文 持 MySQL 
的 “MySQL 备 份 插件 ”也 要 特别 小 心 。 我 们 需要 的 是 主要 为 MySQL 设 计 
的 优秀 备份 工具 ， 而 不 是 一 个 文 持 上 百 个 其 他 数据 库 并 恰巧 文 持 
MySQL 的 工具 。 有 许多 备份 工具 的 供应 者 并 不 知道 或 明白 诸如 FLUSH 
TABLES WITH READ LOCK 操作 对 数据 库 的 影响 。 在 我 们 看 来 ， 使 用 这 种 
SQL 命令 的 方案 应 该 自动 退出 “ 热 ” 备 份 的 行列 。 如 果 只 使 用 InnoDB 表 ， 
就 更 加 不 需要 这 类 工具 。 


























(1) Baron 仍 然 记得 他 毕业 后 的 第 一 个 工作 
表 删 除了 两 列 。 


(2) 是 的 ， 即 使 SELECT 查询 也 会 被 阻 因为 如 果 有 一 个 查询 需要 修改 某 些 数据 ， 只 要 它 
开始 等 待 表 上 的 写 锁 ， 所 有 尝试 获取 读 锁 的 查询 也 必须 等 待 。 

(3) “由 mysqldump 生 成 的 逻辑 备份 并 不 一 定 是 文本 文件 。SQL 导 出 会 包含 许多 不 同 的 字符 
集 ， 同 样 也 会 包含 二 进 制 数 据 ， 这 些 数据 并 不 是 有 效 的 字符 。 对 于 许多 编辑 器 来 说 ， 文 件 行 也 
可 能 会 太 长 。 但 是 ， 大 多 数 这 样 的 文件 还 是 可 以 被 编辑 器 打开 和 读 取 ， 特 别 是 mysqldump 使 用 
了 --hex-blob 选 项 时 。 

(4) 以 我 们 的 经 验 ， 逻 辑 备 份 往 往 比 物理 备份 要 小 许多 ， 但 也 并 不 总 是 如 此 。 

(5) 值得 一 提 的 是 物理 备份 会 更 易 出 错 ; 很 难 像 mysqldump 一 样 简单 。 

(6) Percona XtraBackup 正 在 开发 “真正 的 ” 增 量 备 份 特 性 。 它 将 能 够 备份 变更 的 块 ， 而 不 需要 
扫描 每 个 块 。 

(7) 请 不 要 用 Maatkit 的 mk-parallel-dump 和 mk-parallel-restore 工 具 。 它 们 并 不 安全 。 


当时 他 把 电子 商务 网 站 的 生产 服务 器 上 的 发 货 


































































































































































































第 16 童 ”MySQL 用 户 工 具 


MySQL 服 务 器 发 行 包 中 并 没有 包含 针对 许多 第 用 任务 的 工具 ， 例 
如 监控 服务 器 或 比较 不 同 服务 器 间 数 据 的 工具 。 笠 运 的 是 ，Oracle 的 丙 
业 版 提供 了 一 些 扩 展 工具 ， 并 且 MySQL 活 跃 的 开源 社区 和 第 三 方 公司 
也 提供 了 一 系列 的 工具 ， 降 低 了 自己 “重复 及 明 轮子 ”的 需要 。 











16.1 接口 工具 


接口 工具 可 以 帮助 运行 查询 ， 创 建 表 和 用 户 ， 以 及 执行 其 他 日 癌 任 
务 等 。 本 节 将 简单 介绍 一 些 用 于 此 用 途 的 最 流行 的 工具 。 一 般 可 以 用 
SQL 碍 询 或 命令 做 所 有 这 些 或 其 中 大 部 分 的 工作 一 一 我 们 这 里 讨论 的 工 
具 只 是 更 为 方便 ， 可 帮助 避免 错误 和 加 快 工作 。 











MySQL Workbench 





MySQL Workbench 是 一 个 一 站 式 的 工具 ， 可 以 完成 例如 管理 服 
务 器 、 写 人 查询、 开发 存储 过 程 ， 以 及 Schema 设 计 图 相关 的 工作 。 可 
以 通过 一 个 插件 接口 来 编写 自己 的 工具 并 集成 到 这 个 工作 平台 上 ， 
有 一 些 Python 脚本 和 库 惑 使 用 了 这 个 插件 接口 。MySQL Workbench 
有 社区 版 和 商业 版 两 个 版 本 ， 商 业 版 只 是 增加 了 其 他 的 一 些 高 级 特 
性 。 免 费 版 对 于 大 部 分 需要 早已 足够 了 。 
在 http:/www.mysql.com/products/workbench/ 可 以 学 到 更 多 相关 的 内 
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容 。 














SQLyog 





SQLyog 是 MySQL 最 流行 的 可 视 化 工具 之 一 ， 有 许多 很 好 的 特 
性 。 它 与 MySQL Workbench 是 同 级 别 的 工具 ， 但 两 个 工具 都 有 一 些 
对 方 没 有 的 特性 。SQLyog 只 能 在 微软 的 Windows 下 使 用 ， 拥 有 全 
部 特性 的 版 本 需要 付费 ， 但 有 限制 功能 的 免费 版 本 。 关 于 SQLyog 
的 更 多 信息 可 以 参考 http:Mwww.webyog.com。 








phpMyAdmin 


一 /一 


phpMyAdmin 是 一 个 流行 的 管理 工具 ， 运 行 在 Web 服 务 嚣 上， 
并 且 提 供 基于 浏览 费 的 MySQL 服 务 器 访问 接口 。 尺 管 基于 浏览 旨 
的 访问 有 时 很 好 ， 但 phpMyAdmin 是 个 大 而 复杂 的 工具 ， 曾 被 指责 
有 许多 安全 问题 。 对 此 要 格外 小 心 。 我 们 建议 不 要 安装 在 任何 可 以 
从 互联 网 访问 的 地 方 。 更 多 信息 请 参 
Æ http://sourceforge.net/projects/phpmyadmin/ - 





Admi ner 





Adminer 是 个 基于 浏览 器 的 安全 的 轻 量 级 管理 工具 ， 它 与 
phpMyAdmin 同 类 。 其 开发 者 将 其 Seed 的 更 好 的 蔡 
代 品 。 尽 管 它 看 起 来 更 安全 ， 但 我 们 仍 建议 安装 在 任何 可 公开 访问 
的 地 方 时 要 谨慎 。 更 多 详情 可 参考 http:Mwww.adminer.org。 





MySQL 包 含 了 一 些 命 令 行 工 具 集 ， 例 如 mysqladmin 和 mysqlcheck。 
这 些 在 MySQL 手 册 上 都 有 提 及 和 记录 。MySQL 社 区 同样 创建 了 大 量 高 
质量 的 工具 包 ， 并 有 很 好 的 文档 支撑 这 些 实用 工具 集 。 





Percona Toolkit 





Percona Toolkit 是 MySQL 管 理 员 必 备 的 工具 包 。 它 源 自 Baron 早 
期 的 工具 包 Maatkit 和 Aspersa， 很 多 人 认为 这 两 个 工具 应 该 是 正式 
的 MySQL 部 署 必 须 强 制 要 求 使 用 的 。Percona Toolkit 包 括 许多 针对 
类 似 日 志 分 析 、 复 制 完 整 性 检测 、 数 据 同 步 、 模 式 和 索引 分 析 、 碍 
询 建 议和 数据 归档 目的 的 工具 。 如 果 刚 开始 接触 MySQL， 我 们 建 
议 首 先 学 习 这 些 关 键 的 工具 : pt-mysql-summary、pt-table- 
checksum、Ppttable-sync 和 pt-query-digest。 更 多 信息 可 参 





考 http:/www.percona.com/software/。 
Maatkit and Aspersa 


这 两 个 工具 约 从 2006 年 以 某 种 形式 出 现 ， 两 者 都 被 认为 是 
MySQL 用 户 的 基本 工具 。 它 们 现在 已 经 并 入 Percona Toolkit. 








The openark kit 


Shlomi Noach 的 openark 
kit (http://code.openark.org/forge/openark-kit) 包含 了 可 以 用 来 做 一 
系列 管理 任务 的 Python 脚本 。 


MySQL Workbench LH Ẹ 





MySQL Workbench 工 具 集 中 的 某 些 工具 可 以 作为 单独 的 Python 
脚本 使 用 。 可 参考 https:/Naunchpad.net/mysq|-utilities . 


除了 这 些 工 具 外 ， 还 有 其 他 一 系列 没有 太 正 式 包 装 和 维护 的 工具 。 
许多 杰出 的 MySQL 社 区 成 员 时 不 时 地 贡献 工具 ， 其 中 大 多 数 托管 在 他 
们 自己 的 网 站 或 MySQL Forge Chttp://forge.mysql.com) 上 。 可 以 通过 不 
时 地 查看 Planet MySQL 博 客 聚 合 右 获取 大 量 的 信息 
(http://planet.mysql.com) ， 但 不 幸 的 是 这 些 工 具 没 有 一 个 集中 的 目 
录 。 








16.3 SQL 实用 集 

服务 器 本 身 也 内 置 有 一 系列 人 免费 的 附加 组 件 和 实用 集 可 以 使 用 ， 其 
中 一 些 确实 相当 强大 。 
common_schema 


Shlomi Noach 的 common_schema 项 目 

(http://code.openark.org/forge/common_schema) 是 一 套 针 对 服务 器 

脚本 化 和 管理 的 强大 的 代码 和 视图 。common_schema 对 于 MySQL 好 
比 jQuery 对 于 JavaScript。 


mysql-sr-lib 


Giuseppe Maxia 为 MySQL 创 建 了 一 个 存储 过 程 的 代码 库 ， 可 以 
在 http:/www.nongnu.org/mysql-sr-lib/ 找 到 。 


MySQL UDF 仓 库 


Roland Bouman 建 立 了 一 个 MySQL 目 定义 函数 的 收藏 馆 ， 可 以 
在 http://www. mysqludforg 获 取 。 


MySQL Forge 


在 MySQL Forge 上 Chttp://forge.mysql.com) ， 可 以 找到 上 百 个 
社区 贡献 的 程序 、 脚 本 、 代 码 片 断 、 实 用 集 和 技巧 及 陷阱 。 


16.4 监测 工具 


以 我 们 的 经 验 来 看 ， 大 多 数 MySQL 商 店 需要 提供 两 种 类 型 的 监测 
TR: 健康 监测 工具 一 一 检测 到 腊 常 时 告警 一 一 和 为 趋势 、 诊 断 、 问 题 
排查 、 容 量规 划 等 记录 指标 的 工具 。 大 多 数 系统 仅 在 这 些 任 务 中 的 一 个 
方面 做 得 很 好 ， 而 不 能 两 者 兼顾 。 更 不 过 的 是 ， 有 十 儿 种 工具 可 选 ， 使 
得 评估 和 选择 一 球 适 合 的 工具 非常 耗 时 。 














许多 监控 系统 不 是 专门 为 MySQL 服 务 器 设计 。 它 们 是 通用 系统 ， 
用 于 周期 性 地 检测 许多 种 类 型 的 资源 ， 从 机 器 到 路 由 再 到 软件 (例如 
MySQL) 。 它 们 一 般 有 某 些 类 型 的 插件 架构 ， 经 常会 伴随 有 一 些 
MySQL 插 件 。 


I% 
io. 


一 般 会 在 专用 服务 器 上 安装 监控 系统 来 监测 其 他 服务 器 。 如 果 是 
控 重 要 的 系统 ， 它 很 快 会 变 成 染 构 中 至 天 重要 的 一 部 分 ， 因 此 可 能 需要 


采取 额外 的 步 又， 例如 做 监控 系统 本 身 的 灾 备 。 


16.4.1 开源 的 监控 工具 








下 面 是 一 些 最 受 欢迎 的 开源 集成 监控 系统 。 
Nagios 


Nagios Chttp://www.nagios.org) 也 许 是 开源 世界 中 最 流行 的 问 
题 检 测 和 告警 系统 。 它 周期 性 检测 监控 的 服务 器 并 将 结果 与 默认 或 
自 定 义 的 况 值 相 比 较 。 如 果 结 果 超 出 了 限制 ，Nagios 会 执行 茶 个 程 


序 并 且 (或 ) 把 问题 的 告警 发 给 某 些 人 。Nagios 的 通信 和 告警 系统 
可 以 将 告警 发 给 不 同 的 联系 人 ， 改 变 告警 ， 或 根据 一 天 中 的 时 间 和 
其 他 条 件 将 其 发 送 到 不 同 的 位 置 ， 并 且 对 计划 内 的 宕 机 可 以 特殊 处 
理 。Nagios 同 样 理解 服务 之 间 的 依赖 ， 因 此 ， 如 果 是 因为 中 间 的 路 
由 层 宕 机 或 者 主机 本 身 宕 机 导致 MySQL 实 例 不 可 用 ，Nagios 不 会 发 
送 告警 来 烦 你 。 








Nagios 能 将 任何 一 个 可 执行 文件 以 插件 形式 运行 ， 只 要 给 予 其 
正确 参数 就 可 得 到 正确 输出 。 因 此 ，Nagios 插 件 在 多 种 语言 中 都 存 
在 ， 例 如 shell、Perl、Python、Ruby 和 其 他 脚本 语言 。 束 算 找 不 到 
一 个 能 真正 满足 你 需求 的 插件 ， 上 自己 创建 一 个 也 很 简单 。 一 个 插件 
只 需要 接收 标准 的 参数 ， 以 一 个 合适 的 状态 退出 ， 然 后 选择 性 地 打 
印 Nagios 捕 获 的 输出 。 





然而 ，Nagios 也 有 一 些 严重 的 缺点 。 即 使 你 很 了 解 它 ， 也 仍然 
难以 维护 。 它 将 所 有 配置 保存 在 文件 而 不 是 数据 库 中 。 文 件 有 一 个 
特别 容易 出 错 的 语法 ， 当 系统 增长 和 发 展 时 ， 修 改 配置 文件 就 很 费 
事 。Nagios 可 扩展 性 并 不 好 ; 你 可 以 很 容易 地 写 出 监控 插件 ， 但 这 
也 就 是 你 能 够 做 的 一 切 。 最 后 ， 它 的 图 形 化 、 趋 势 化 和 可 视 化 能 
都 有 限 。Nagios 将 一 些 性 能 和 其 他 数据 存储 到 MySQL 服 务 器 中 ， 一 
般 从 中 生成 图 形 ， 但 并 不 像 其 他 一 些 系 统 那么 灵活 。 因 为 不 同 “ 政 
见 ” 的 原因 ， 使 得 上 面 所 有 的 问题 继续 变 得 更 糟 。 因 为 或 真实 、 或 
脐 测 的 涉及 代码 、 参 与 者 的 问题 ，Nagios 至 少 分 化 出 了 两 个 分 文 。 
两 个 分 支 的 名 字 分 别 是 Opsview (http:/www.opsview.com) 和 
Icinga Chttp://www.icinga.org) 。 它 们 比 Nagios 更 受到 人 们 的 亲 睐 。 











有 一 些 专门 介绍 Nagios 的 书籍 ， RIIM Wolfgang ”Barth 的 
Nagios System and Network Monitoring (No Starch 出 版 公司 ) 。 


Zabbix 


Zabbix ~~} [A PN LRF a Pe A OUR TE A. PI, E 
将 所 有 配置 和 其 他 数据 存储 到 数据 库 而 不 是 配置 文件 中 。 它 存储 了 
比 Nagios 更 多 的 数据 类 型 ， 因 而 可 以 得 到 更 好 的 趋势 和 历史 报表 。 
其 网 络 画 图 和 可 视 能 力也 比 Nagios 更 强 ， 配 置 更 简单 ， 更 灵活 ， 且 
更 具 可 扩展 性 。 可 参考 http:/www.zabbix.com 获 取 更 多 信息 。 











Zenoss 





Zenoss 是 用 Python 写 的 ， 拥 有 一 个 基于 浏览 器 的 用 户 界 面 ， 使 
用 了 Ajax， 这 使 它 更 快 和 更 高 效 。 它 可 以 自动 发 现 网 络 上 的 资源 ， 
并 将 监控 、 告 警 、 趋 势 、 绘 网 和 记录 历史 数据 整合 到 了 一 个 统一 的 
工具 中 。Zenoss 默 认 使 用 SNMP 来 从 远程 服务 器 上 收集 数据 ， 但 也 
可 以 使 用 SSH， 并 且 文 持 Nagios 插 件 。 更 多 信息 请 参考 http:Mwww. 


Ze€noSsS.COM o 


Hyperic HQ 





Hyperic _HQ 是 一 个 基于 Java 的 监控 系统 ， 比 起 同 级 别 的 其 他 大 
部 分 系统 ， 它 更 称 得 上 是 企业 级 监控 。 像 Zenoss 一 样 ， 它 可 以 自动 
发 现 网 络 上 的 资源 和 文 持 Nagios 插 件 ， 但 它 的 逻辑 组 织 和 架构 不 
同 ， 有 点 “深重 ”。 更 多 信息 可 参考 http:Mwww.hyperic.com。 


OpenNMS 
OpenNMS 也 是 用 Java 开 发 ， 有 一 个 活跃 的 开发 社区 。 它 拥有 常 


规 的 特性 ， 例 如 监控 和 告警 ， 但 同样 也 增加 了 绘图 和 趋势 功能 。 它 
的 目标 是 高 性 能 、 可 扩展 、 目 动 化 和 灵活 。 像 Hyperic 一 样 ， 它 也 


致力 于 为 大 型 和 关键 系统 做 企业 级 监控 。 更 多 信息 请 参 
4% http://www.opennms.org - 


Groundwork Open Source 


Groundwork Open Source 用 一 个 可 移植 的 接口 把 Nagios 和 其 他 
几 个 工具 整合 到 了 一 个 系统 中 。 对 于 这 个 工具 最 好 的 描述 是 : 如 果 
你 是 Nagios、Cacti 和 其 他 几 个 工具 方面 的 专家 ， 并 且 花 了 许多 时 间 
将 它们 整合 一 起 ， 那 很 可 能 你 是 在 闭门造车 。 更 多 信息 可 参考 


http://www.gwos.com 








相 比 于 集 所 有 功能 于 一 映 的 系统 ， 还 有 一 系列 软件 专注 于 收集 指标 
和 画图 以 及 可 视 化 ， 而 不 是 进行 性 能 监控 检查 。 他 们 中 有 很 多 是 建立 在 
RRDTool (http:/www.rrdtool.org) 之 上 ， 存 储 时 序数 据 到 轮 询 数 据 库 

(RRD) 文件 中 。RRD 文 件 自 动 聚集 输入 数据 ， 对 没有 预期 传送 的 输入 
值 进 行 插值 ， 并 有 强大 的 绘图 工具 可 以 生成 漂亮 有 特色 的 图 。 有 很 多 基 
于 RRDTool 的 系统 ， 下 面 是 其 中 最 受 欢 迎 的 几 个 。 

















MRTG 


Multi Router Traffic Grapher 或 称 
MRTG Chttp://oss.oetiker.ch/mrtg/) ， 是 典型 的 基于 RRDTool 的 系 
统 。 最 初 是 为 记录 网 络 流量 而 设计 的 ， 但 同样 可 以 扩展 到 用 于 对 其 
他 指标 进行 记录 和 绘 








Cacti 


Cacti Chttp://www.cacti.net) 可 能 是 最 流行 的 基于 RRDTool 的 
系统 。 它 采用 PHP 网 页 来 与 RRDTool 进 行 交 互 ， 并 使 用 MySQL 数 据 


库 来 定义 服务 器 、 插 件 、 图 像 等 。 因 为 是 模板 驱动 ， 故 而 可 以 定义 
模板 然后 应 用 到 系统 上 。Baron 为 MySQL 和 其 他 系统 写 了 一 组 非常 
流行 的 模板 ;， 更 多 信息 请 参考 http://code.google.com/p/mysql-cacti- 
templates/。 这 些 也 已 经 被 移植 到 Munin、OpenNMS 和 Zabbix。 


Ganglia 


Ganglia (http://ganglia.sourceforge.net) 与 Cacti 类 似 ， 但 是 为 
监控 集群 和 网 格 系统 而 设计 ， 所 以 可 以 汇总 查看 许多 服务 器 的 数 
据 ， 如 果 需 要 也 可 以 细 分 查看 单 台 服 务 器 的 详细 数据 。 





Munin 


Munin Chttp://munin.projects.linpro.no) 收集 数据 并 存 入 
RRDTool 中 ， 然 后 以 几 个 不 同 级 别 的 粒度 生成 数据 图 。 它 从 配置 中 
生成 静态 HTML 文 件 ， 因 此 可 以 很 容易 地 浏览 和 查看 趋势 。 定 义 一 
个 图 形 较 容易 ;， 只 需要 创建 一 个 插件 脚本 ， 其 命令 行 帮助 输出 有 一 
些 Munin 可 以 识别 的 特别 语法 的 画图 指令 。 








基于 RRDTool 的 系统 有 些 限制 ， 例 如 不 能 用 标准 查询 语言 来 查询 存 
储 的 数据 ， 不 能 永久 保留 数据 ， 存 在 某 些 数 据 不 能 轻松 地 使 用 简单 计数 
堪 和 标准 数值 表示 的 问题 ， 需 要 预先 定义 指标 和 图 形 等 。 理 想 情 况 下 ， 
我 们 需要 的 监控 系统 可 以 接受 任何 发 送 给 它 的 指标 ， 而 不 需要 预先 进行 
定义 ， 并 且 后 续 可 以 绘制 任意 需要 的 图 形 ， 也 不 需要 预先 进行 定义 。 可 
能 我 们 所 看 到 的 最 接近 的 系统 是 
Graphite Chttp://graphite.wikidot.com) 。 











这 些 系 统 都 可 以 用 来 对 MySQL 收 集 、 记 录 和 绘制 数据 图 表 并 且 生 





成 报表 ， 有 着 不 同 程度 的 灵活 性 ， 目 标 也 稍微 有 些 不 同 。 但 它们 都 缺乏 
真正 可 以 在 问题 出 现时 及 时 告警 的 灵活 性 。 


我 们 提 到 的 大 多 数 系统 的 主要 问题 是 ， 它 们 明显 是 由 那些 因为 现 有 
系统 不 能 满足 他 们 所 有 需求 的 人 设计 的 ， 因 此 他 们 又 重复 设计 了 为 一 个 
无 法 完全 满足 其 他 人 的 所 有 需求 的 系统 。 大 部 分 这 样 的 系统 都 有 一 些 基 
础 的 限制 ， 例 如 使 用 一 个 奇怪 的 数据 模型 存储 内 部 数据 ， 而 导致 在 很 多 
场合 都 无 法 很 好 地 工作 。 在 很 多 时 候 ， 这 部 令 人 泪 背 ， 使 用 这 些 系 统 痢 
像 是 把 一 个 圆 形 的 钉子 条 到 了 一 个 方形 的 洞 里 面 。 


16.4.2 ”商业 监控 系统 
尽管 我 们 知道 许多 MySQL 用 户 热 训 使 用 开源 工具 ， 但 也 有 许多 人 


愿意 为 合适 的 软件 买单 ， 只 要 这 些 软件 可 以 让 工作 更 好 地 完成 ， 为 他 们 
节省 时 间 ， 减 少 烦 恼 。 下 面 是 一 些 可 以 利用 的 丙 业 选 件 。 














MySQL Enterprise Monitor 


MySQL Enterprise Monitor, Æ Oracle MySQL 3 RS F o- 
它 将 监控 、 指 标 和 画图 、 咨 询 服 务 和 查询 分 析 等 特性 整合 到 了 一 个 
工具 中 。 通 过 在 服务 器 上 使 用 agent 来 监测 状态 计数 器 (也 包含 操作 
系统 的 关键 指标 ) 。 它 能 以 两 种 方式 抓 取 碍 询 : 通过 MySQL 代 理 
(MySQL Proxy) ， 或 使 用 合适 的 MySQL 连 接 器 ， 例 如 Java 的 
ConnectorJ 或 PHP 的 MySQLi。 尽 管 是 为 监控 MySQL 而 设计 的 ， 但 
某 种 程度 上 也 可 以 进行 扩展 。 同 样 ， 这 个 工具 也 无 法 监控 基础 架构 
中 所 有 的 服务 器 和 所 有 的 服务 。 更 多 信息 请 参 


% http://www.mysql.com/products/enterprise/monitor.html . 


MONyog 


MONYyog Chttp:/www.webyog.com) 是 一 个 运行 在 更 面 上 的 基 
于 浏览 器 且 无 agent 的 监控 系统 。 它 会 启动 一 个 HTTP 服 务 器 ， 然 后 
束 可 以 通过 浏览 器 来 使 用 此 工具 。 





New Relic 


New Relic (http://newrelic.com) 是 一 个 托管 式 的 软件 即 服务 
(Saas) 的 应 用 性 能 管理 系统 ， 它 可 以 分 析 整 个 应 用 的 性 能 ， 从 应 
用 代码 《采用 Ruby，PHP，Java 和 其 他 语言 ) 到 运行 在 浏览 器 上 的 
JavaScript， 到 数据 库 的 SQL 调用 ， 甚 至 是 服务 器 的 磁盘 空间 ，CPU 
利用 率 和 其 它 指标 。 





Circonus 


Circonus Chttps://circonus.com) 是 一 个 源 于 OmniTI 的 托管 式 的 
软件 即 服 务 (SaaS) 的 指标 和 告警 系统 。 通 过 agent 从 一 个 或 多 个 服 
务 器 上 收集 指标 并 转发 到 Circonus， 然 后 就 可 以 通过 一 个 基于 浏览 
器 的 仪表 盘 来 得 看 。 








Monitis 


Monitis (http://monitis.com) 是 另外 一 个 云 托管 式 的 软件 即 服 
F (SaaS) 的 监控 系统 。 它 被 设计 成 监控 “一 切 ”， 这 意味 着 它 有 点 
普 衣 性 。 它 有 一 个 入 门 级 的 免费 版 Monitor.us 
(http:/mon.itor.us) ， 也 有 文 持 MySQL 的 插件 。 








Sp | unk 


Splunk Chttp://www.splunk.com) 是 一 个 日 志 聚 集 器 和 搜索 引 
擎 ， 可 以 帮助 获得 环境 中 所 有 机 器 生成 的 数据 并 进行 运营 分 析 。 





Pingdom 


Pingdom Chttp:/;www.pingdom.com) 从 世界 的 多 个 位 置 来 监控 
网 站 的 可 用 性 和 性 能 。 实 际 上 有 许多 像 Pingdom 一 样 的 服务 ， 我 们 
并 不 需要 特别 推荐 某 一 个 这 样 的 服务 ， 但 是 我 们 确实 建议 使 用 一 些 
外 部 的 监控 服务 ， 以 便 让 你 在 网 站 不 可 用 时 能 够 及 时 得 到 通知 。 很 
多 类 似 的 服务 远 不 止 Ping 或 获取 网 页 。 





还 有 许多 其 他 的 商业 监控 工具 一 一 我 们 可 以 赁 印象 列举 出 十 几 个 或 
更 多 。 对 所 有 监控 系统 而 言 ， 要 注意 的 一 点 是 它们 对 服务 器 的 影响 。 有 
些 工 具 相 当 直 白 ， 因 为 它们 由 一 些 没有 实际 的 大 型 高 负载 MySQL 系 统 
经 验 的 公司 设计 。 例 如 ， 我 们 不 止 一 次 通过 禁止 每 分 钟 对 所 有 的 数据 库 
执行 一 次 SHOW TABLE STATUS 的 监控 功能 来 解决 突 发 事件 。〔 这 个 命令 
在 高 W/O 限 制 的 系统 上 特别 有 破坏 性 。〉 频繁 查询 INFORMAT1ON_SCHEMA 
表 的 工具 也 会 导致 负面 影响 。 











16.4.3 ”Innotop 有 的 命令 行 监控 





有 一 些 基于 命令 行 的 监测 工具 ， 它 们 大 部 分 在 茶 种 方面 模拟 了 
UNIX 中 的 top 工 具 。 其 中 最 精致 和 最 胜任 的 是 
innotop Chttp://code.google.com/p/innotop/) ， 我 们 将 详细 探讨 。 此 外 ， 
还 有 几 个 其 他 的 工具 ， 例 如 mtop Chttp://mtop.sourceforge.net) ~ 
mytop Chttp://jeremy.zawodny.com/mysql/mytop/) 和 一 些 基 于 网 页 的 
mytop TERR AS 


尽管 mytop 是 MySQL 上 最 原始 的 top 殉 隆 ， 但 innotop 比 mytop 拥 有 更 
能 ， 这 i Raia ss 


本 书 的 作者 之 一 Balon Schwartz 编 写 了 innotop。 它 展示 了 服务 器 正 
在 发 生 事情 的 实时 更 新 视图 。 别 去 理会 它 的 名 称 ， 实 际 上 它 不 仅仅 用 于 
监控 InnoDB， 还 可 以 监控 MySQL 任 何其 他 的 方面 。 它 也 能 同时 监控 多 
个 MySQL 实例 ， 极 具 可 配置 性 和 可 扩展 性 。 


它 的 功能 特性 包括 以 下 这 些 : 


事务 列表 可 以 显示 InnoDB 当前 的 全 部 事务 。 

得 询 列表 可 以 显示 当前 正在 运行 的 查询 。 

可 以 显示 当前 锁 和 锁 等 待 的 列表 。 

以 相对 值 显示 服务 器 状态 和 变量 的 汇总 信息 

有 多 种 模式 可 用 来 显示 InnoDB 内 部 信息 ， 例如 缓冲 区 、 IED Ah 
键 错误 、LIO 活动 情况 、 行 操作 、 信 和 号 量 ， 以 及 其 他 更 多 的 内 容 。 
复制 监控 ， 将 主 服 务 器 和 从 服务 器 的 状态 显示 在 一 起 。 

显示 任意 服务 器 变量 的 模式 。 

服务 器 组 可 以 更 方便 地 组 织 多 台 服 务 器 。 

在 命令 行 脚本 下 可 以 使 用 非 交 互 式 模 式 。 














innotop 的 安装 很 容易 ， 可 以 从 操作 系统 的 软件 仓库 安装 ， 也 可 以 从 
http://code.google.com/p/innotop/ 人 下载 到 本 地 ， 然 后 解压 缩 ， 运 行 标准 的 
make install 和 安装 过 程 。 


perl Makefile.PL 


make install 





— Bee seh, Wa UEMS T BR Tinnotop, Aja’ EZI SURE 





成 连接 到 MySQL 实 例 的 过 程 。 引 导 过 程 会 读 取 ~/ 人 my.cnf 选 项 文件 ， 这 
样 ， 除 了 输入 服务 器 的 主机 名 和 按 几 次 Enter 键 之 外 ， 什 么 都 不 用 做 。 连 
接 完 成 以 后 ， 就 处 在 T (InnoDB Transaction) 模式 了 ， 这 时 ， 应 该 可 看 
到 InnoDB 事务 列表 ， 如 图 16-1 所 示 。 





Versions Hndo Dirty Buf Us i Txns MaxTxnTime LStrets 
16: 13 49: 26 9 

















图 16-1: 处 在 T (InnoDB Transaction) 模式 的 innotop 


默认 情况 下 ，innotop 采 用 过 滤器 来 减少 零乱 的 信息 “对 于 显示 的 所 
有 信息 ， 都 可 以 定义 目 己 的 过 滤 圳 或 者 定制 内 部 的 过 滤器 ) 。 在 图 16-1 
里 ， 大 多 数 事务 都 已 经 被 过 滤 挥 了 ， 只 显示 出 了 当前 活动 的 事务 。 可 以 
按 i 键 茶 邱 过 滤 ， 让 数量 众多 的 事务 信息 填 满 整个 屏幕 

















innotop 在 这 个 模式 下 会 显示 头 部 信息 和 主线 程 列 表 。 头 部 信息 里 显 
示 一 些 InnoDB 的 总 体 信息 ， 例 如 ， 历 史 清单 的 长 度 、 还 未 清除 的 
InnoDB 事务 数目 、 绥 冲 池 中 脏 缓 冲 所 占 的 百分比 等 。 


你 要 按 的 第 一 个 键 应 该 是 问号 〈?) ， 以 查看 帮助 信息 。 虽 然 在 屏 
幕 上 显示 出 的 帮助 内 容 会 根据 当前 模式 的 不 同 而 不 同 ， 但 是 每 一 个 活动 
的 键 都 总 是 会 显示 出 来 ， 因 此 能 看 到 所 有 可 执行 的 动作 。 图 16-2 显 示 的 
古 T 模 式 下 的 帮助 信息 。 

















va ermina on@keywe "0X 
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图 16-2: innotop 帮助 1 











在 这 里 不 会 详细 讲解 所 有 的 模式 ， 但 还 是 可 以 从 帮助 人 
生 


出 ，innotop 有 许 许 多 多 的 功能 特性 。 
这 里 唯一 要 提 及 的 是 一 些 基本 的 上 自 定 义 功能 ， 告 诉 你 如 何 监控 想 要 
监控 的 信息 。innotop 的 强大 功能 之 一 就 是 能 够 解释 用 户 定义 的 表达 式 ， 
例如 Uptime/Questions 是 生成 每 秒 钟 的 查询 指标 。 它 会 显示 自 服务 器 局 








Ab A 


动 以 来 和 / 或 自 上 次 采样 之 后 递增 累加 的 结果 值 。 

这 使 得 往 显 示 表 格 里 添加 自己 的 列 方便 很 多 。 例 如 ， 在 Q_ (Query 
示 出 服务 器 的 一 些 总 体 信 息 。 让 我 们 看 看 

示 出 索引 键 缓存 有 多 满 。 启 动 innotop， 按 


fod 
aH Fe HEME 





rm Ab HE 
b Ke 


List) 模式 下 ， 头 部 1 
下 Q 键 进入 Q 模 式 。 这 时 的 操作 结果 看 起 来 像 图 16-3 一 样 。 





怎么 将 它 修 改 一 下 ， 使 




















图 16-3: Q 模 式 〈 查 询 列 表 ) FM innotop 


这 个 屏幕 截图 只 截取 了 一 部 分 ， 因 为 在 这 个 练习 里 ， 我 们 对 碍 询 列 
表 没 有 兴趣 ， 我 们 只 关心 头 部 信息 。 





头 部 显示 了 “当前 ”统计 《统计 自从 上 次 innotop 用 服务 器 上 的 新 数据 
刷新 后 的 累计 增 量 ) 和 "总 计 ?” 统 计 《〈 统 计 自 MySQL 服 务 器 启动 以 来 所 有 
的 活动 ， 这 个 实例 中 是 25 天 前 ) 。 头 部 的 每 一 列 都 是 来 自 SHOW STATUS 
和 SHOW VARIABLES 相 对 应 的 变量 值 。 图 16-3 中 显示 的 头 部 是 内 建 的 ， 但 
也 很 容易 增加 自 定 义 的 。 需 要 做 的 只 是 增加 一 列 到 头 部 “ 表 ”。 按 ^ 键 来 
打开 表 编 辑 器 ， 然 后 在 提示 符 后 输入 q_header 来 编辑 头 部 表 (图 16- 
4) 。 由 于 内 置 有 Tab 键 自动 补 齐 功能 ， 因 此 可 以 痪 入 q 然 后 按 Tab 刍 来 补 
充 完 成 整个 词 。 
































图 16-4: 增加 一 个 头 部 《开始 ) 





在 此 之 后 ， 你 将 会 看 到 Q 模 式 尖 部 的 表 定义 “图 16-5，。 该 表 定 义 
显示 了 表 的 列 。 第 一 列 被 选中 。 我 们 可 以 移动 选项 ， 重 新 排序 和 编辑 
列 ， 还 可 做 其 他 的 很 多 事情 《〈 按 ? 键 可 以 看 到 一 个 完整 的 列表 ) ， 但 我 
们 只 打算 创建 一 个 新 列 。 按 n 键 然后 输入 列 名 〈 图 16-6) 。 





Editing table definition for Q-mode Header. Press ? for help, q to quit. 














图 16-5: 增加 头 部 《选择 ) 





or po TMs 11S name is 
ce, “rt can only contain lo 





Enter column name: kc_usedf 











图 16-6: 增加 头 部 〈 命 名 列 ) 


接着 ， 输 入 列 的 头 部 ， 它 将 在 列 的 顶部 显示 〈 图 16-7) 。 最 后 ， 选 
择 列 源 。 这 是 一 个 innotop 内 部 编译 为 函数 的 表达 式 。 你 可 以 使 用 SHOW 
VARIABLES 和 SHOW ”STATUS 中 对 应 变量 的 名 字 ， 就 像 是 方程 中 的 变量 一 
rA 我 们 使 用 了 一 些 括 号 和 Perl 式 “或 ”默认 值 以 防止 被 零 除 ， 除 此 而 外 

等 式 相 当 直 白 。 我 们 同样 可 以 使 用 innotop 中 的 percent () 转换 来 以 
ip E ERM, 更 多 信息 请 参考 innotop 的 文档 。 图 16-8 显 示 
TATRAN: 























图 16-7: 287 ASP (ALA) 








(1 - ((Key_blocks_unused * key_cache_block_size) / ( 














图 16-8: 增加 头 部 〈 要 计算 的 表达 式 ) 





按 Enter 键 ， 你 将 会 和 之 前 一 样 看 到 表 的 定义 ， 但 是 在 底部 有 了 新 增 
加 的 列 。 按 几 次 + 键 将 它 往 列表 上 方 移 ， 挨 着 key_buffer_hit 列 ， 然 后 
按 q 键 退出 表 编 辑 器 。 瞧 ， 新 的 列 舱 在 KCacheHit 和 Bpsln 之 间 《〈 图 16- 
9) 。 可 以 通过 定制 innotop 很 容易 地 监控 想 要 的 信息 。 如 果 它 真 的 不 能 
满足 你 的 需求 ， 甚 至 还 可 以 编写 对 应 的 插件 。 更 多 文档 见 
http ://code.google.com/p/innotop/ - 

















CXN When Load 


srvr_l Now 
srvr_l Total 














图 16-9: 增加 头 〈 结 果 ) 


16.5 MZ 


好 的 工具 对 管理 MySQL 至 关 重 要 。 推 荐 使 用 一 些 已 经 可 用 、 广 泛 
测试 过 、 流 行 的 工具 ， 例 如 Percona Toolkit〈 旧 名 Maatkit) 。 当 接触 新 
的 服务 器 时 ， 实 践 中 我 们 首先 要 做 的 是 运行 pt-summary 和 pt-mysql- 
summary。 如 果 在 一 台 服 务 器 上 工作 ， 可 能 需要 在 男 外 一 个 终端 下 运 
行 识 notop 来 观察 它 以 及 任何 相关 的 服务 器 。 








监控 工具 是 另外 一 个 更 复杂 的 话题 ， 这 是 由 于 它们 对 于 管理 非常 重 
要 。 如 果 你 是 一 名 开源 倡导 者 ， 想 使 用 开源 的 监控 系统 ， 或 许可 以 尝试 
Nagios 结 合 带 Baron 的 ”Cacti 模 板 的 Cacti， 或 者 尝试 Zabbix， 前 提 是 作 不 
介意 复杂 的 接口 。 如 果 想 要 监控 MySQL 的 商业 工具 ， MySQL Enterprise 
Monitor 可 以 胜任 ， 我 们 知道 有 很 多 用 户 使 用 得 很 好 。 如 果 想 监控 整个 
环境 和 其 中 所 有 软 人 硬件 信息 ， 你 可 能 需要 自己 去 做 一 些 调 查 一 一 这 个 话 
题 超出 了 本 书 讨论 的 范围 。 








附录 A ”MySQL 分 支 与 变种 


在 第 1 章 中 ， 我 们 已 经 讨论 过 MySQL 的 历史 : 先 被 Sun 公 司 收购 ， 
然后 再 被 Oracle 公 司 收购 ， 以 及 它 怎 样 成 功 度 过 了 这 些 管理 职务 上 的 变 
动 。 这 个 故事 有 太 多 事情 可 讲 。MySQL 不 再 只 可 从 Oracle 获 取 。 在 两 次 
转让 的 过 程 中 ， 出 现 了 好 几 个 MySQL 变 种 。 尽 管 大 部 分 人 都 只 愿意 要 
Oracle“ 官 方 " 版 本 的 MySQL， 但 这 些 变种 非常 重要 ， 并 且 对 所 有 MySQL 
用 户 产 生 了 一 个 很 大 的 改变 一 一 甚至 是 那些 从 来 没有 打算 使 用 它们 的 用 
P 








在 过 去 几 年 里 ， 出 现 了 几 个 MySQL 变 种 ， 但 到 目前 为 止 主要 有 三 
个 久 经 考验 的 主流 变种 : Percona Server，MariaDB 和 Drizzle。 它 们 都 有 
活跃 的 用 户 社 区 和 某 种 程度 上 的 商业 支持 ， 均 由 独立 的 服务 供应 商 支 


持 。 


作为 Percona Server 的 创建 者 ， 我 们 有 一 定 的 倾向 性 ， 但 我 们 认为 这 
个 附录 相当 客观 ， 因 为 我 们 对 所 有 的 MySQL 变 种 都 提供 服务 、 文 持 、 
咨询 、 培 训 和 工程 部 车。 我 们 还 邀请 了 Drizzle 的 创建 者 Brian Aker 和 
MariaDB 的 创建 者 Monty Widenius 来 参与 到 这 个 附录 的 编写 ， 因 此 这 并 
非 我 们 二 家 之 音 。 


Percona Server 


Percona Server (http://www.percona.com/software/) 因 我 们 致力 于 
解决 客户 问题 而 衍生 。 在 本 书 的 第 二 版 中 ， 我 们 提 到 了 我 们 为 改进 
MySQL 服 务 器 的 日 志方 法 所 做 的 补丁 。 那 正 是 Percona ”Server 的 起 源 。 
当 遇 到 用 其 他 方法 都 不 能 解决 的 问题 时 ， 我 们 就 去 修改 服务 器 源码 。 





Percona Server 有 三 个 主要 的 目标 。 
透明 


增加 允许 用 户 更 紧密 地 查看 服务 器 内 部 信息 和 行为 的 方法 。 包 
含 的 特性 有 类 似 SHOW ”STATUS 中 的 计数 器 ，1NFORMATI1ON_SCHEMA 中 
的 表 ， 以 及 慢 查 询 日 志 中 特别 增加 的 详细 信息 。 





性 能 





Percona Server 包 含 许多 性 能 和 可 扩展 性 方面 的 改进 。 原 始 性 能 
非常 重要 ， 但 Percona Server 还 加 强 了 性 能 的 可 预测 性 和 稳定 性 。 其 
中 主要 集中 于 InnoDB。 


操作 灵活 性 


Percona Server 包 含 许 多 移 除 限制 的 特性 。 尽 管 某 些 限制 看 起 来 
不 起 眼 ， 但 这 些 限 制 可 能 会 使 操作 人 员 和 系统 管理 员 在 让 MySQL 
作为 架构 的 一 部 分 而 可 靠 并 稳定 运行 时 ， 感 到 非常 困难 。 


Percona ， Server 是 个 与 MySQL 回 后 兼容 的 替代 品 ， 它 尽 可 能 不 改变 


SQL 语法 、 客 户 端 /服务 器 协议 和 磁盘 上 的 文件 格式 。 包 任何 运行 在 
MySQL 上 的 都 可 以 运行 在 Percona Server 上 而 不 需要 修改 。 切 换 到 
Percona Server 只 需要 关闭 MySQL 和 局 动 Percona Server， 不 需要 导出 和 
重新 导入 数据 。 切 换 回 去 也 不 肪 烦 ， 而 这 一 点 实际 上 非 弟 重要 : 许多 问 
题 是 通过 临时 切换 解决 的 ， 使 用 增强 的 方法 来 诊断 ， 然 后 切 回 到 标准 
MySQL. 








我 们 只 对 标准 MySQL 中 需要 并 且 可 以 产生 显著 好 处 的 地 方 做 改 
进 。 我 们 相信 大 部 分 用 户 坚持 使 用 由 Oracle 肥 行 的 MySQL 官 方 版 本 可 能 
是 最 好 的 选择 ， 并 且 努 力 与 原版 保持 尽 可 能 地 相同 。 





Percona ”Server 包 括 Percona XtraDB 存 储 引 擎 ， 即 改进 版 本 的 
InnoDB。 这 同样 是 个 向 后 兼容 的 蔡 代 品 。 例 如 ， 如 果 创 建 一 个 使 用 
InnoDB 存 储 引 擎 的 表 ，Percona Server 能 自动 识别 并 用 Percona XtraDB 蔡 
代 之 。Percona XtraDB 同 样 包括 在 MariaDB 内 。 





Percona Server 的 一 些 改 进 已 经 包括 在 MySQL 的 Oracle 版 本 中 ， 许 多 
其 他 改进 也 只 是 稍 作 修 改 而 重新 实现 。 结 果 ，Percona Server 变 成 了 许多 
特性 的 “ 抢 鲜 ”版 ， 这 些 特 性 随后 将 在 标准 MySQL 中 出 现 。Percona 
Server 在 5.1 和 5.5 版 本 中 的 许多 改进 可 能 要 在 MySQL 5.6 中 重新 实现 。 





MariaDB 


在 Sun 收 购 MySQL 后 ，Monty Widenius， 这 位 MySQL 的 创建 者 ， 
不 认同 MySQL 开 发 流程 而 离开 Sun。 他 成 立 了 Monty 程 序 公司 ， 创立 了 
MariaDB， 以 培养 一 个 “开放 的 开发 环境 以 勤 励 外 部 的 参与 "。MariaDB 
的 目标 是 社区 开发 ，Bug 修 复 和 许多 的 新 特性 一 一 特别 是 与 社区 开发 的 
特性 相 集 成。 再 引用 Monty 的 一 句 话 ， 包 “MariaDB 的 远景 是 面向 用 户 和 
客户 驱动 ， 以 及 更 多 社区 的 补丁 和 插件 。” 





MariaDB 有 什么 不 同 昵 ? Percona Server 相 比 ， 它 包括 了 更 多 对 服 
务 器 的 扩展 。 (Percona Server 的 大 部 分 改变 是 在 于 Percona XtraDB 存 储 
引擎 ， 而 不 是 服务 器 层 。) 例如 ， 有 许多 是 对 查询 优化 和 复制 的 改变 。 
它 使 用 Aria 存 储 引 擎 取代 了 MyISAM 来 存储 内 部 临时 表 (被 用 于 复杂 的 
查询 ， 例 如 DISTINCT 或 子 查询 ) 。Aria 最 初 叫 Maria， 在 不 确定 的 Sun 时 
代 是 打算 替代 InnoDB 的 。 它 是 MyISAM 的 册 演 安全 的 版 本 。 








除 Percona XtraDB 和 Aria 外 ，MariaDB 还 包括 许多 社区 的 存储 引擎 ， 
例如 SphinxSE 和 PBXT。 





MariaDB 是 原版 MySQL 的 超 集 ， 因 此 已 有 的 系统 不 需要 任何 修改 就 
可 以 运行 ， 束 像 Percona Server 一 样 。 然 而 ，MariaDB 对 有 些 场景 可 以 更 
好 地 胜任 ， 例 如 复杂 的 子 人 查询 或 多 表 关 联 。 它 同样 有 MyISAM 分 段 的 键 
缓存 ， 这 样 特性 使 得 MyISAM 在 现代 的 硬件 上 可 以 更 好 地 扩展 。 


也 许 MariaDB 的 最 佳 版 本 是 53， 在 写作 此 书 时 它 还 是 候选 发 布 状 
态 。 这 个 版 本 包含 许多 但 询 优 化 方面 的 工作 一 一 可 能 是 最 近 十 年 对 
MySQL 最 大 的 优化 。 它 增加 了 但 询 执 行 计划 ， 例 如 哈 硕 联合 ， 并 且 修 











复 了 我 们 之 前 在 本 书 中 指出 的 MySQL 的 一 些 缺 陷 ， 例 如 动态 列 、 基 于 
角色 的 访问 控制 和 微 秒 级 时 间 惟 的 支持 。 


关于 MariaDB 更 多 的 改进 可 参考 http:Mwww.askmonty.org 上 的 文档 
BY http://askmonty. org/blog/the-2-year-old-mariadb/#ll 
http:/kb.askmonty.org/en/what-is-mariadb-53 中 的 变更 总 结 。 


Drizzle 





Drizzle 是 真正 的 MySQL 分 文 ， 而 非 只 是 个 变种 或 增强 版 本 。 它 并 
不 与 MySQL 兼 容 ， 尽 管区 分 上 还 并 不 是 大 相 径 隆 。 在 许多 场合 并 不 能 
简单 地 将 MySQL 后 端 蔡 换 为 Drizzle， 因 为 它 对 SQL 语法 修改 太 大 了 。 





Drizzle 创 建 于 2008 年 ， 致 力 于 更 好 地 服务 MySQL 用 户 。 其 创建 目 
标 是 更 好 地 满足 网 页 应 用 的 核心 功能 。 它 是 个 很 了 不 起 的 改进 ， 与 
MySQL 相 比 更 简单 ， 选 择 更 少 ; 例如 ， 它 只 使 用 utf8 作 为 存储 字符 集 ， 
并 且 只 有 一 种 类 型 的 BL0OB。 它 主要 针对 64 位 硬件 编译 ， 且 支持 IPv6 网 
络 。 


Drizzle 数 据 库 服务 器 的 一 个 关键 目标 是 消除 MySQL 上 有 异常 和 遗留 
的 行为 ， 例 如 声明 了 NOT NULL 列 但 发 现 数 据 库 中 英名 其 妙 地 存储 了 
NULL。 你 可 以 在 MySQL 上 找到 的 差劲 的 实现 或 难 使 用 的 特性 已 经 被 删 
除 ， 例 如 触发 器 、 查 询 缓存 和 1NSERT ON DUPLICATE KEY UPDATE. 





在 代码 层 ，Drizzle 构 建 于 一 个 精简 内 核 和 插件 的 微 核心 架构 之 上 。 
服务 器 的 核心 比 起 MySQL 已 经 精简 许多 。 几 乎 任何 东西 都 是 插件 一 一 
甚至 类 似 SLEEP () 的 函数 。 这 使 得 Drizzle 在 源码 级 非常 简单 并 非常 高 
效 。 


Drizzle 使 用 了 诸如 Boost 的 标准 开源 库 ， 并 遵从 代码 、 构 建 架构 和 
APT 方 面 的 标准 。 它 对 类 似 复制 等 特意 使 用 了 Google 协 议 绥 冲 公开 消息 
格式 ， 并 且 使 用 修改 版 的 mnoDB 作 为 标准 存储 引擎 。 


Drizzle 团 队 很 早 束 开始 着 手 做 服务 句 的 基准 测试 ， 用 基于 业界 标准 


的 1024 个 线程 基准 来 评估 高 并 发 的 性 能 。 并 发 越 大 性 能 增加 越 高 ， 对 性 
能 改进 非常 大 。 





Drizzle 是 一 个 社区 开发 的 项 目 ， 在 开源 社区 iy eae 
该 服务 器 的 许可 证 是 纯 GPL 的 ， 没 有 双重 的 许可 证 。 然 而 ，MySQL 客 户 
端 一 服务 器 协议 依靠 一 个 基于 BSD 许 可 证 的 新 客户 端 库 完成 ， 而 这 对 于 
开发 商业 系统 是 最 重要 的 一 个 方面 。 这 意味 着 你 可 以 通过 用 Drizzle 的 客 
户 端 库 来 连 到 MySQL 的 方式 构建 一 个 专属 应 用 ， 并 且 不 需要 为 MySQL 
客户 问 库 购买 商业 许可 证 或 将 软件 基于 GPL 发 布 。MySQL 的 libmysql 客 
Pig PoP DR ARV NOUNS EAE Wail eee es UR = 没 
有 这 个 链接 到 libmysql 的 商业 许可 证 ， 这 些 公司 就 要 被 迫 在 GPL 下 发 行 
软件 。 而 这 不 再 必要 ， 因 为 现在 公司 可 以 使 用 Drizzle 的 库 来 蔡 代 。 























但 据 我 们 了 解 ，Drizzle 虽 已 在 某 些 产品 环境 下 部 署 但 还 没有 广泛 应 
用 。Drizzle 项 目的 理念 是 抛弃 癌 后 兼容 的 束缚 ， 而 这 意味 着 相对 于 迁移 
一 个 已 有 的 应 用 而 言 ， 它 更 适合 新 的 应 用 。 








其 他 MYySQL 变 种 


现在 ， 或 曾经 ， 有 许多 MySQL 服 务 器 的 变种 。 许 多 大 型 公司 ， 例 
如 Google、Facebook 和 eBay， 都 维护 着 这 一 服务 器 的 修改 版 ， 以 完全 匹 
配 其 需求 和 部 署 场 景 。 许 多 源码 已 可 公开 获取 ; 也 许 最 著名 的 例子 就 是 
Facebook 和 Google 做 的 MySQL 补 丁 。 





另外 还 有 几 个 分 文 或 再 发 行 ， 例 如 OurDelta、DorsalSource， 还 有 只 
存在 了 很 短 一 段 时 间 的 Henrik Ingo 的 一 个 发 行 。 


最 后 ， 许 多 人 没有 意识 到 当 他 们 从 GNU/Linux 发 行 包 软 件 库 中 安装 
MySQL 时 ， 其 实 获取 的 是 一 个 修改 后 的 服务 器 版 本 一 一 在 某 些 场 合 
下 ， 有 大 量 的 修改 。Red Hat 和 Debian (相应 的 Fedora 和 Ubuntu〉 都 发 
行 了 非 标 准 版 本 的 MySQL，Gentoo 以 及 实际 上 任何 其 他 GNU/Linux 发 行 
也 都 如 此 。 与 其 他 我 们 提 及 的 变种 相 比 ， 这 些 发 行 并 没有 指出 对 服务 器 
源码 做 了 哪些 修改 ， 因 为 它们 保留 了 MySQL 的 名 字 。 


过 去 我 们 遇 到 过 许多 关于 MySQL 修 改版 的 问题 。 这 是 我 们 倾向 于 
倡导 使 用 Oracle 版 本 的 MySQL 的 一 个 原因 ， 除 非 有 很 强 有 力 的 理由 来 使 
用 其 他 版 本 。 





Ik 


4E 


JA 二 器 


MySQL 分 文 和 变种 很 少 有 大 量 的 代码 被 采用 到 MySQL 人 代码 的 主干 
树 上 ， 但 却 很 大 程度 上 影响 了 MySQL 开 发 的 方向 和 节奏 。 在 某 些 情况 
下 ， 它 们 提供 了 一 个 出 众 的 丛 代 选择 。 





应 该 使 用 分 文 代 痊 Oracle 官 方 的 MySQL? 我 们 并 不 认为 这 通常 有 必 
要 。 如 何 选择 一 般 基 于 理解 〈 从 来 没有 完全 的 精确 ) 或 商业 原因 ， 例 如 
与 Oracle 有 一 个 企业 范围 的 关系 。 通 第 有 两 类 人 倾 问 不 使 用 官方 版 本 的 
服务 器 。 


。 过 到 只 有 改 源码 才能 解决 的 特别 问题 的 人 。 
。 不 信任 Oracle 对 MySQL 的 管理 并 且 视 分 支 为 真正 的 开源 进而 快乐 的 
人 。 


为 什么 选择 某 个 分 文 ? 我 们 总 结 如 下 。 如 果 你 想 与 官方 MySQL 版 
本 尽量 保持 紧密 ， 并 且 想 获取 更 好 的 性 能 、 指 导 和 有 用 的 特性 ， 那 就 选 
择 Percona Server。 如 果 你 觉得 MariaDB 对 服务 器 的 大 量 修改 更 优 ， 或 想 
要 一 个 在 社区 内 更 广泛 发 行 的 存储 引擎 ， 就 选择 MariaDB。 如 果 你 想 要 
一 个 轻 量 精简 版 的 数据 库 服务 器 并 且 并 不 介意 是 否 与 MySQL 兼 窑 ， 或 
想 让 上 自己 对 数据 库 的 改进 更 容易 ， 那 就 妃 随 Drizzle。 








讲 到 Percona， 一般 认 为 所 有 的 提供 商都 有 许多 关于 官方 版 本 
MySQL 的 经 验 ， 然 而 很 自然 地 Percona 对 于 Percona Server 最 有 经 验 ， 而 
Monty 公 司 最 熟悉 MariaDB 。 当 寻求 官方 发 行 的 MySQL 的 Bug 修 复 时 这 
会 有 影响 。 只 有 Oracle 能 保证 一 个 Bug 在 官方 的 MySQL 发 行 中 被 修复 ; 
其 他 供应 商 可 以 提供 修复 但 没有 把 它们 加 入 到 官方 发 行 中 的 权力 。 这 回 











答 了 为 什么 选择 茶 个 分 支 : 有 些 人 选择 分 支 就 是 因为 其 服务 供应 商 提供 
的 MySQL 版 本 完全 可 控 ， 并 且 可 以 方便 地 修复 和 改进 。 





(1) 兽 有 一 些 对 文件 格式 的 改变 ， 但 己 经 默认 被 禁 掉 ， 如 果 想 要 ， 还 可 以 使 其 生效 。 


(2) XAJ IL F http://askmonty.org/blog/the-2-year-old-mariadb fll 
http://kb.askmonty.org/en/what-is-mariadb-53 . 





附录 B ”MySQL 服务 器 状态 


你 可 以 通过 查看 MySQL 的 状态 来 回答 许多 关于 MySQL 的 问题 。 
MySQL 以 多 种 方式 来 暴露 服务 器 内 部 信息 。 最 新 的 是 MySQL ”5.5 中 的 
PERFORMANCE_SCHEMA 库 ， 而 标准 的 INFORMAT1ION_SCHEMA 库 从 MySQL 5.0 
就 已 开始 存在 ， 此 外 实际 上 一 直 存 在 一 系列 的 SHOW 命令 。 有 些 通过 SHOW 
命令 获取 的 信息 并 不 在 INFORMAT10N_SCHEMA 中 存在 。 








对 你 的 挑战 是 ， 问 题 到 底 是 什么 ， 如 何 获取 需要 的 信息 ， 如 何 解 释 
它 。 尺 管 MySQL 人 允许 你 查看 许多 服务 器 内 部 发 生 的 信息 ， 但 使 用 这 些 
信息 并 不 总 是 简单 的 。 理 解 它 需 要 了 耐心、 经验， 并 要 准备 好 参阅 
MySQL 有 用户 手册 。 同 样 ， 好 的 工具 也 非常 有 用 。 











这 个 附录 大 部 分 是 参考 材料 ， 但 也 有 许多 关于 服务 器 内 部 功能 的 信 
息 ， 特 别 是 在 关于 InnoDB 的 小 节 中 。 





MySQL 通 过 SHOW VARIABLES SQL 命令 显露 了 许多 系统 变量 ， 你 可 
以 在 表达 式 中 使 用 这 些 变量 ， 或 在 命令 行 中 通过 mysqladmin variables 试 
验 。 自 MySQL 5.1 起 ， 可 以 通过 访问 INFORMATION_SCHEMA 库 中 的 表 来 获 
取 这 些 信 息 。 

这 些 变量 反映 了 一 系列 配置 信息 ， 例 如 服务 器 的 默认 存储 引擎 


(storage engine) 、 可 用 的 时 区 、 连 接 的 排序 规则 (collation〉 和 局 
动 参数 。 我 们 在 第 8 章 中 已 经 讨论 过 如 何 设置 和 使 用 它们 。 





SHOW STATUS 


SHOW ”STATUS 命 令 会 显示 每 个 服务 器 变量 的 名 字 和 值 。 和 上 面 讲 的 
服务 器 参数 不 一 样 ， 状 态 变 量 是 只 读 的 。 可 以 在 MySQL 客 户 端 里 运 
行 SHOW STATUS 或 在 命令 行 里 运行 mysqladqmin extended-status 来 查看 这 些 
变量 。 如 果 使 用 SQL 命令 ， 可 以 使 用 LIKE 或 WHERE 来 限制 结果 。 可 以 
用 LIKE 对 变量 名 做 标准 模式 匹配 。 命 令 将 返回 一 个 结果 表 ， 但 不 能 对 它 
排序 ， 与 男 外 一 个 表 做 联合 操作 ， 或 像 对 MySQL 表 一 样 做 一 些 事情 。 
在 MySQL 5.1 或 更 新 版 本 中 ， 可 以 直接 从 
INFORMAT 1ON_SCHEMA. GLOBAL_STATUS 和 
INFORMAT1ON SCHEMA. SESS10N_STATUS 表 中 查询 值 。 














E 1. 我 们 使 用 “状态 变量 "这 个 术语 来 指 从 SHOW ” STATUS 中 得 到 的 值 ， 术 语 “系统 变 


量 ” 则 指 服务 器 配置 变量 。 





SHOW ”STATUS 的 行为 自 MySQL 5.0 后 有 了 非常 大 的 改变 ， 但 是 如 果 
你 没有 足够 细致 地 观察 ， 可 能 不 会 注意 到 。5.0 之 前 的 版 本 只 有 全 局 变 
量 ，5.1 及 以 后 的 版 本 中 ， 有 的 变量 是 全 局 的 ， 有 的 变量 是 连接 级 别 
的 。 因 此 ，SHOW STATUS 混杂 了 全 局 和 会 话 变量 。 其 中 许多 变量 有 双重 
域 : 既是 全 局 变量 ， 也 是 会 话 变量 ， 它 们 拥有 相同 的 名 字 。 现 在 SHOW 
STATUS 默认 也 显示 会 话 变量 ， 因 此 ， 如 果 你 习惯 于 使 用 SHOW STATUS 来 
查看 全 局 变量 ， 则 需要 改 为 运行 SHOW GLOBAL STATUS 查看 。 包 
































有 上 百 个 状态 变量 。 大 部 分 要 么 是 计数 器 ， 要 么 包 合 茶 些 状态 指标 
的 当前 值 。 每 次 MySQL 做 一 些 事情 都 会 导致 计数 器 的 增长 ， 比 如 开始 
初始 化 一 个 全 表 扫 描 (Select_scan) 。 度 量 值 ， 例 如 打开 的 到 服务 器 


连接 数量 (Threads_connected) ， 可 能 增长 和 减少 。 有 时 候 几 个 变量 
貌似 指向 相同 的 事情 ， 例 如 Connections (尝试 连接 到 服务 器 的 连接 数 
=) 和 Threads_connected; 在 本 例 下 ， 变 量 是 关联 的 ， 但 类 似 的 名 字 
并 不 总 是 隐 含 某 种 关系 。 

















变量 采用 无 符号 整 型 存储 。 它 们 在 32 位 编译 系统 上 用 4 个 字 节 
(byte) ， 而 在 64 位 环境 上 用 8 个 字 节 ， 并 且 当 达到 最 大 值 后 会 重新 从 0 
开始 。 如 果 你 增 量 地 监测 这 些 变量 ， 可 能 需要 观察 并 修正 这 个 绕 回 处 
理 ， 你 也 要 意识 到 如 果 服 务 器 已 经 运行 很 长 一 段 时 间 ， 可 能 会 有 比 预期 
更 小 的 值 ， 这 是 因为 这 些 变 量 值 已 经 被 重 置 为 零 。《〈 在 64 位 编译 系统 上 
基本 不 会 出 现 。) 














如 果 想 对 服务 器 的 工作 负载 有 一 个 大 体 上 的 了 解 ， 可 以 将 相关 的 一 
组 变量 放 在 一 起 查看 和 对 比 一 一 例如 ， 一 起 查看 所 有 的 Select_* 变 量 ， 
或 所 有 的 Hand1er_* 变 量 。 如 果 使 用 innotop， 在 Command Summary 模 式 
下 查看 更 简单 ， 但 也 可 以 通过 类 似 mysqladmin 不 会 使 用 SHOW GLOBAL 
STATUS， 因 此 仍 将 不 能 显示 “正确 的 ”信息 。 





extended -r -i60 | grep Handler_ 的 命令 手动 完成 。 以 下 是 在 一 个 我 们 
检测 的 服务 器 上 innotop 对 Select_* 变 量 的 显示 。 


Command Summary 








Name Value Pct Last Incr Pct 

Select_scan 756582 59.89% 2 100.00% 
Select_range 497675 39.40% 0 0.00% 
Select_full_join 7847 0.62% 0 0.00% 
Select_full_range_join 1159 0.09% 0 0.00% 
Select_range_check 1 0.00% 0 0.00% 


得 看 一 组 变量 的 当前 值 、 上 一 次 和 查询 的 值 ， 以 及 它们 之 间 的 差 值 ， 
可 以 使 用 Percona Toolkit 中 的 pt-mext 工 具 ， 或 Shlomi Noach 写 的 简洁 的 查 
H. A 





SELECT STRAIGHT_JOIN 
LOWER(gs0.VARIABLE_NAME) AS variable_name, 
gs0.VARIABLE_VALUE AS value_0, 
gs1.VARIABLE_VALUE AS value 1, 
(gs1.VARIABLE_VALUE - gs®.VARIABLE_VALUE) AS diff, 
(gs1.VARIABLE_VALUE - gs0.VARIABLE_VALUE) / 10 AS per_sec 
(gs1.VARIABLE_VALUE - gs0.VARIABLE_VALUE) * 60 / 10 AS pe 
FROM ( 
SELECT VARIABLE_NAME, VARIABLE_VALUE 
FROM INFORMATION_SCHEMA.GLOBAL_STATUS 
UNION ALL 
SELECT '', SLEEP(10) FROM DUAL 
) AS gs0 
JOIN INFORMATION _SCHEMA.GLOBAL_STATUS gs1 USING (VARIABLE 


WHERE gs1.VARIABLE_VALUE <> gs0.VARIABLE_ VALUE; 


+----------------------- +--------- +--------- +------ +--------- +--------- 十 
| variable name | value 0 | value 1 | diff | per sec | per min | 


| handler read rnd next | 2366 | 2953 
| handler_write | 2340 | 3218 
| open_files | 22 | 20 

| select full join 

| select scan 


最 有 帮助 的 是 查看 整个 过 程 最 后 几 分 钟 所 有 这 些 变 量 值 和 度量 值 ， 
查看 自 服 务 器 月 动 后 的 总 值 也 同样 有 用 。 


接 下 来 是 对 SHOW ”STATUS 中 所 看 到 的 各 种 变量 的 概述 ， 但 不 是 一 个 
详尽 的 列表 。 对 于 给 定 变 量 的 详情 ， 最 好 查询 MySQL 用 户 手 册 ， 详 见 
http://dev.mysql.com/doc/en/mysqld-option-tables.html。 当 我 们 讨论 一 组 以 
相同 前 级 开头 的 相关 变量 时 ， 我 们 指 的 是 “< 前 级 >_*” 这 样 的 变量 。 


线程 和 连接 统计 


这 些 变 量 用 来 跟踪 尝试 的 连接 、 退 出 的 连接 、 网 络 流量 和 线程 统 








i 


e Connections, Max_used_connections, Threads_connected 

e Aborted_clients, Aborted_connects 

e Bytes received, Bytes_sent 

e Slow_launch_threads, Threads_cached, Threads_ created, 


Threads_running 


如 果 Aborted_connects 不 为 0， 可 能 意味 着 网 络 有 问题 或 菜 人 尝试 
连接 但 失败 (可 能 用 户 指 定 了 错误 的 密码 或 无 效 的 数据 库 ， 或 某 个 监控 
系统 正在 打开 TCP 的 3306 端 口 来 检测 服务 器 是 否 活着 ) 。 如 果 这 个 值 太 
高 ， 可 能 有 严重 的 副作用 : 导致 MySQL 阻 窟 一 个 主机 。 








Aborted_clients 有 类 似 的 名 字 但 意思 完全 不 同 。 如 果 这 个 值 增 
长 ， 一 般 意 味 着 曾经 有 一 个 应 用 错误 ， 例 如 程序 在 结束 之 前 忘记 正确 地 
关闭 MySQL 连 接 。 这 一 般 并 不 表明 有 大 问题 。 


二 进 制 日 过 状态 











Binlog cache use 和 Binlog cache disk_use 状 态 变量 显示 了 在 二 
进 制 日 志 绥 存 中 有 多 少 事务 被 存储 过 ， 以 及 多 少 事务 因 超 过 二 进 制 日 志 
缓存 而 必须 存储 到 一 个 临时 文件 中 。MySQL 5.5 还 包 
含 Binlog stmt cache use 和 Binlog stmt cache disk use, ‘7x J JE 
事务 语句 相应 的 度量 值 。 所 谓 的 “二 进 制 日 志 绥 存 命 中 率 ” 往 往 对 配置 二 
进 制 日 志 绥 存 的 大 小 并 没有 参考 意义 。 详 细 参 考 第 8 章 中 相关 的 话题 。 


命令 计数 器 


Com_* 变 量 统计 了 每 种 类 型 的 SQL 或 C API 命 令 发 起 过 的 次 数 。 例 
如 ，Com_select 统 计 了 SELECT 语句 的 数量 ，Com_change_db 统 计 一 个 连 
接 的 默认 数据 库 被 通过 USE 语 句 或 C_ APTI EPA. Questions) 
变量 统计 总 查询 量 和 服务 器 收 到 的 命令 数 。 然 而 ， 它 并 不 完全 等 于 所 
有 Com_* 变 量 的 总 和 ， 这 与 查询 绥 存 命中 、 关 闭 和 退出 的 连接 ， 以 及 其 
HHA) REN AR AK 

















Com admin_commands 状 态 变 量 可 能 非常 大 。 它 不 仅 计数 管理 命令 ， 
并 且 还 包括 对 MySQL 实 例 的 Ping 请 求 。 这 些 请 求 通过 C APIA, FFA 
一 般 来 自 客 户 端 代码 ， 例 如 下 面 的 Perl 代 码 。 


my $dbh = DBI->connect(...); 
while ( $dbh && $dbh->ping ) { 
# Do something 


t 


这 些 Ping 请 求 是 “垃圾 ”三 询 。 它 们 往往 不 会 对 服务 器 产生 许多 负 
载 ， 但 仍然 是 个 浪费 ， 因 为 网 络 回 路 时 间 会 增加 应 用 的 啊 应 时 间 。 我 们 





曾经 看 到 ORM 系 统 CRuby on Rails 立 即 跃 入 脑海 ) 在 每 次 查询 之 前 Ping 
服务 器 ， 而 这 是 无 意义 的 Ping 服务 器 然后 再 查询 是 一 个 “跳跃 之 前 看 
-下 ”设计 模式 的 典型 例子 ， 它 会 产生 竞争 条 件 。 我 们 同样 看 到 过 在 每 
次 查询 之 前 更 改 上 默认 库 的 数据 库 抽象 函数 库 ， 这 也 会 产生 大 量 的 
Com_change_db 命 令 。 最 好 消除 这 两 种 做 法 。 


临时 文件 和 和 


可 以 通过 下 列 命令 得 看 MYSQL 创建 临时 表 和 文件 的 计数 。 

















mysql> SHOW GLOBAL STATUS LIKE 'Created_tmp%'; 











这 显示 了 关于 隐 式 临时 表 和 文件 的 统计 一 一 执行 查询 时 内 部 创建 。 
在 Percona Server 中 ， 同 样 有 展示 显 式 临时 表 ( 即 由 用 户 通 过 CREATE 
TEMPORARY TABLE 所 创建 ) 的 命令 。 





mysql> SHOW GLOBAL TEMPORARY TABLES; 


句柄 操作 


句柄 API 是 MySQL 和 存储 引擎 之 间 的 接口 。Handler_* 变 量 用 于 统 
计 句 柄 操作 ， 例 如 MySQL 请 求 一 个 存储 引擎 来 从 一 个 索引 中 读 取 下 一 
行 的 次 数 。 可 以 通过 下 列 命 令 查看 这 些 变量 。 





mysql> SHOW GLOBAL STATUS LIKE 'Handler_%'; 


MyISAM 键 缓冲 





oe e a a 可 以 通过 下 








mysql> SHOW GLOBAL STATUS LIKE "Key_%'; 
Y He 、 AA 
文件 描述 稚 


如 采 你 主要 使 用 MyISAM 存 储 引 擎 ， 那 么 0pen_# 变 量 揭示 了 MySQL 
每 隔 多 久 会 打开 每 个 表 的 .frm、.M 开 和 .MYD 文 件 。InnoDB 保 持 所 有 的 数 
据 在 表 空 间 文 件 中 ， 因 此 如 果 你 主要 使 用 mmnoDB， 那 么 这 些 变量 并 不 
精确 。 可 以 通过 下 列 命 令 查 看 0pen_# 变 量 。 











mysql> SHOW GLOBAL STATUS LIKE 'Open_%'; 


查询 绥 存 


通过 查询 Qcache_* 状 态 变 量 可 以 检查 查询 缓存 。 


mysql> SHOW GLOBAL STATUS LIKE 'Qcache_%'; 


SELECT 类 型 


Select # 变 量 是 特定 类 型 的 SELECT 查询 的 计数 器 。 它 们 能 帮助 你 了 





fie (ok Fs Tt RU SELECT 2 iJ LEK. SANE, FRA KP he 
询 类 型 的 状态 变量 ， 例 如 UPDATE 和 REPLACE; 然而 ， 可 以 看 一 

下 Handler_# 状 态 变 量 〈 前 面 讨论 过 ) 大 致 了 解 非 SELECT 查询 的 相对 数 
量 。 要 碍 看 所 有 Select_# 变 量 ， 使 用 下 列 命令 。 


mysql> SHOW GLOBAL STATUS LIKE 'Select_%'; 


以 我 们 的 判断 ，Select_* 状 态 变 量 可 以 按 花费 递增 的 顺序 如 下 排 
列 。 


Select range 





在 第 一 个 表 上 扫描 一 个 索引 区 间 的 联接 数目 。 
Select scan 


扫描 整个 第 一 张 表 的 联接 数目 。 如 果 第 一 个 表 中 每 行 都 参与 联 
接 ， 这 样 计数 并 没有 问题 ， 如 果 你 并 不 想 要 所 有 行 但 又 没 有 索引 以 
查找 到 所 需要 的 行 ， 那 就 糟糕 了 。 





Select full range join 








使 用 在 表 n 中 的 一 个 值 来 从 表 n+1 中 通过 参考 索引 的 区 间 内 获取 
行 所 做 的 联接 数 。 这 个 值 或 多 或 少 比 Select_scan 开 销 多 些 ， 具体 
多 少 取决 于 查询 。 


Select range check 








alee (ciara 的 每 一 行 的 索引 是 人 否 开销 最 小 所 做 的 
联接 数 。 这 一 般 意 味 着 在 表 n+1 中 对 该 联接 而 言 并 没有 有 用 的 索 











引 。 这 个 查询 有 非常 高 的 额外 开销 。 
Select full join 


交叉 联接 或 并 没有 条 件 匹 配 表 中 行 的 联接 的 数目 。 检 测 的 行 数 
是 每 个 表 中 行 数 的 乘积 。 这 通常 是 个 坏事 情 。 


最 后 两 个 变量 一 般 并 不 快速 地 增长 ， 如 果 快速 增长 ， 则 可 能 表明 一 
个 “ 炉 糕 "的 查询 引入 到 了 系统 中 。 具 体 可 参考 第 3 章 中 关于 如 何 找到 此 
类 查询 的 讨论 。 


排序 


在 前 面 几 章 中 我 们 已 经 讲 了 许多 MySQL 的 排序 优化 ， 因 此 你 应 该 
知道 排序 是 如 何 工 作 的 。 当 MySQL 不 能 使 用 一 个 索引 来 获取 预先 排序 
的 行 时 ， ”必须 使 用 文件 排序 ， 这 会 增加 Sort_* 状 态 变 量 。 

除 Sort_merge_passes 外 ， 你 可 以 只 是 增加 MySQL 会 用 来 排序 的 索引 以 
改变 这 些 值 。Sort_merge_passes 依 赖 sort_buffer_size 服 务 器 变量 

(不 要 与 myisam_sort_buffer_size 服 务 器 变量 相 泥 淆 ) 。MySQL 使 用 
排序 缓冲 来 容纳 排序 的 行 块 。 当 完成 排序 后 ， 它 将 这 些 排序 后 的 行 合并 
到 结 末 集 中 ， 增 加 Sort_merge_passes， 并 且 用 下 一 个 待 排序 的 行 块 填 
充 缓存 。 然 而 ， 使 用 这 个 变量 来 指导 排序 缓存 的 大 小 并 不 是 个 好 方法 ， 


详情 见 第 3 章 。 








可 以 通过 以 下 命令 查看 所 有 的 Sort_* 变 量 。 


mysql> SHOW GLOBAL STATUS LIKE 'Sort_%'; 





当 MySQL 从 文件 排序 结果 中 读 取 已 经 排 好 序 的 行 并 返回 给 客户 端 
时 ，Sort_scan 和 Sort_range 变 量 会 增长 。 不 同 点 仅 在 于 : 前 者 是 当 碍 
询 计划 导致 Select_scan 增 加 《参考 前 面 的 章节 ) 时 增加 ， 而 后 者 是 
当 S$elect_range 增 加 时 增加 。 二 者 的 实现 和 开销 完全 一 样 ; 仅仅 指示 了 
导致 排序 的 查询 计划 类 型 。 


KM 


Table locks immediate 和 Table locks waited 变 量 可 告诉 你 有 多 
少 锁 被 立即 授权 ， 有 多 少 锁 需 要 等 待 。 但 请 注意 ， 它 们 只 是 展示 了 服务 
器 级 别 锁 的 统计 ， 并 不 是 存储 引擎 级 的 锁 统 计 。 














InnoDB 相 天 


Innodb # 变 量 展 示 了 SHOW ENGINE INNODB STATUS 中 包含 的 一 些 数 
据 ， 本 附录 稍 后 会 讨论 。 这 些 变量 会 按 名 字 分 组 : 
Innodb_buffer_pool_*, Innodb log *， 等 等 。 稍 后 我 们 在 检查 完 SHOW 
ENGINE INNODB STATUS 后 会 更 多 地 讨论 InnoDB 内 幕 。 








这 些 变量 存在 于 MySQL 5.0 或 更 新 版 本 中 ， 它 们 有 重要 的 副作用 : 
它们 会 创建 一 个 全 局 锁 ， 然 后 在 释放 该 锁 之 前 遍历 整个 nnoDB 绥 冲 
池 。 同 时 ， 男 外 一 些 线程 也 会 遇 到 该 锁 而 阻塞 ， 直 到 它 被 释放 。 这 至 曲 
了 一 些 状 态 值 ， 比 如 Threads_running， 因 此 ， 它 们 看 起 来 比 平常 更 高 
(可 能 高 许多 ， 取 决 于 系统 此 时 有 多 忙 ，。 当 运行 SHOW ENGINE INNODB 
STATUS 或 通过 1NFORMATI1ON_SCHEMA 表 (在 MySQL 5.0 或 更 新 版 本 
中 ，SHOW STATUS 和 SHOW VARIABLES 与 对 1NFORMAT1ION_SCHEMA 表 的 查询 








FEE PRY SRR) 访问 这 些 统计 时 ， 有 相同 的 副作用 。 


因此 ， 这 些 操作 在 这 些 版 本 的 MySQL 中 会 更 加 昂贵 检查 服务 
器 状态 太 频 繁 〈 例 如 ， 每 秒 一 次 ) 可 能 会 显著 增加 负载 。 使 用 SHOW 
STATUS LIKE 也 无 济 于 事 ， 因 为 它 要 获取 所 有 的 状态 然后 再 进行 过 滤 。 














MySQL 5.5 中 相 比 5.1 有 更 多 的 变量 ， 在 Percona Server 中 更 多 。 


插件 相关 


MySQL 5.1 和 更 新 的 版 本 中 支持 可 插 拔 的 存储 引擎 ， 并 在 服务 器 内 
对 存储 引擎 提供 了 注册 它们 自己 的 状态 和 配置 变量 的 机 制 。 如 果 你 在 使 
用 一 个 可 插 拔 的 存储 引擎 ， 也 许 会 看 到 许多 插件 特有 的 变量 。 关 似 的 变 
量 总 是 以 插件 名 开头 。 





SHOW ENGINE INNODB STATUS 


InnoDB 存 储 引擎 在 SHOW ENGINE INNODB STATUS 输出 中 ， 老 版 本 中 
对 应 的 是 SHOW INNODB STATUS， 显 示 出 了 大 量 的 内 部 信息 。 





不 像 其 他 大 部 分 SHOW 命令 ， 它 的 输出 就 是 单独 的 一 个 字符 串 ， 没 有 
行 和 列 。 它 分 为 很 多 小 段 ， 每 一 段 对 应 了 InnoDB 存 储 引 擎 不 同 部 分 的 
信息 ， 其 中 有 一 些 信息 对 于 InnoDB 开发 者 来 说 是 非常 有 用 的 ， 但 是 ， 
许多 信息 ， 如 果 你 试 着 去 理解 ， 并 且 应 用 到 高 性 能 InnoDB 调 优 的 时 
候 ， 你 会 发 现 它 们 非常 有 趣 一 一 甚至 是 非常 必要 的 。 








a 
pea 


ag Bia IoD Be Fes 位 数字 分 成 两 部 分 来 给 出 ， 高 32 位 和 低 32 位 ， 有 一 个 例 











子 是 事务 ID， 比 如 TRANSACTION 0 3793469， 你 可 以 这 么 来 计算 64 位 数字 的 值 : 把 第 一 部 分 往 


左 移动 32 位 ， 然 后 加 到 第 二 部 分 上 。 我 们 在 后 面 会 展示 几 个 例子 。 























输出 内 容 包 含 了 一 些 平 均值 的 统计 信息 ， 例 如 fsync O 每 秒 调 用 次 
数 。 这 些 平均 值 是 自 上 次 输出 结果 生成 以 来 的 统计 数 ， 因 此 ， 如 果 你 正 
在 检查 这 些 值 ， 那 就 要 确保 已 经 等 得 了 30s 左 右 的 时 间 ， 使 两 次 采样 之 
间 积 累 起 足够 长 的 统计 时 间 并 多 次 采样 ， 检 查 计数 器 变化 从 而 弄 清 其 行 
为 。 并 不 是 所 有 的 输出 都 会 在 一 个 时 间 点 上 生成 ， 因 而 也 不 是 所 有 显示 
出 来 的 平均 值 会 在 同一 时 间 间 隔 里 重新 计算 一 遍 。 而 且 ，InnoDB 有 一 
个 内 部 复位 间隔 ， 而 它 是 不 可 预知 的 ， 各 个 版 本 也 不 一 样 。 你 应 该 检查 
一 下 和 输出， 看 看 有 哪些 平均 值 在 这 个 时 间 段 里 生成 ， 因 为 每 次 采样 的 时 
间 间 隅 不 总 是 相同 的 。 




















这 里 面 有 足够 的 信息 可 供 手 工 计 算出 大 多 数 你 想 要 的 统计 信息 。 但 


是 ， 如 果 这 时 有 一 蒜 监 控 工 具 ， 例 如 innotop 一 一 它 能 为 你 计算 出 增 量 差 
值 和 平均 值 ， 那 将 是 非常 有 用 的 。 


头 部 信息 


第 一 段 是 尖 部 信息 ， 它 仅仅 声明 了 输出 开始 ， 其 内 容 包 括 当 前 的 日 
期 和 时 间 ， 以 及 目 上 次 输出 以 来 经 过 的 时 长 。 下 列 第 2 行 是 当前 日 期 和 
时 间 。 第 4 行 显示 的 是 计算 出 这 一 平均 值 的 时 间 间 隔 ， 即 自 上 次 输出 以 
来 的 时 间 ， 或 者 是 距离 上 次 内 部 复位 的 时 长 。 











4 Per second averages calculated from the last 49 seconds 


SEMAPHORES 


如 果 有 高 并 发 的 工作 负载 ， 你 就 要 关注 下 接 下 来 的 
Et: SEMAPHORES (信号 量 ) 。 它 包含 了 两 种 数据 : 事件 计数 器 ， 以 及 可 
选 的 当前 等 待 线程 的 列表 。 如 果 有 性 能 上 的 瓶颈 ， 可 以 使 用 这 些 信息 来 
找 出 瓶 诺 。 不 幸 的 是 ， 想 知道 怎么 使 用 这 些 信息 还 是 有 一 点 复杂 ， 不 过 
我 们 会 在 本 附录 的 后 面部 分 里 给 你 一 些 建议 。 下 面 是 一 些 输出 样 例 。 








4 OS WAIT ARRAY INFO: reservation count 13569, signal count 1 
5 --Thread 1152170336 has waited at ./../include/bufObuf.ic 1 
the semaphore: 
Mutex at 0x2a957858b8 created file bufObuf.c line 517, lock 
waiters flag 0 


wait is ending 


oO 0 N Q 


--Thread 1147709792 has waited at ./../include/bufObuf.ic 1 
the semaphore: 

10 Mutex at 0x2a957858b8 created file bufObuf.c line 517, loc 
11 waiters flag 0 

12 wait is ending 

13 Mutex spin waits 5672442, rounds 3899888, OS waits 4719 


14 RW-shared spins 5920, OS waits 2918; RW-excl spins 3463, 0 


第 4 行 给 出 了 关于 操作 系统 等 待 数组 的 信息 ， 它 是 一 个 “ 插 横 ” 数 
组 。InnoDB 在 数组 里 为 信号 量 保留 了 一 些 插 槽 ， 操 作 系 统 用 这 些 信 和 号 
量 给 线程 发 送信 号 ， 使 线程 可 以 继续 运行 ， 以 完成 它们 等 着 做 的 事情 。 
这 一 行 还 显示 出 InnoDB 使 用 了 多 少 次 操作 系统 的 等 待 。 保 留 计 数 
(reservation count) 显示 了 InnoDB 分 配 插 村 的 频 度 ， 而 信号 计数 
(signal count) 衡量 的 是 线程 通过 数组 得 到 信号 的 频 度 。 操 作 系统 的 等 
待 相对 于 空转 等 待 Cspin wait) 要 更 昂贵 一 些 ， 我 们 即将 看 到 这 一 点 。 

















第 5 一 12 行 显示 的 是 当前 正在 等 竺 互 斥 量 的 InnoDB 线 程 。 在 这 个 例 
子 里 显示 出 有 两 个 线程 正在 等 每 ， 每 一 个 都 是 以 “-- Thread < 数字 > has 
waited.… 开 始 的 。 这 一 段 应 该 是 空 的， 除非 服务 器 运行 着 高 并 发 的 工作 
负载 ， 促 使 mnoDB 和 采取 让 操作 系统 等 符 的 措施 。 除 非 你 对 InnoDB 源 代 
码 很 熟悉 ， 否 则 这 里 看 到 的 最 有 用 的 信息 是 发 生 线 程 等 待 的 代码 文件 





名 。 这 就 给 了 你 一 个 提示 : 在 InnoDB 内 部 哪里 才 是 热点 。 举 例 来 说 ， 
如 果 看 到 许多 线程 都 在 一 个 名 为 bufDbufic 的 文件 上 等 待 着 ， 那 就 意味 着 
你 的 系统 里 存在 着 缓冲 池 苋 争 。 这 个 输出 信息 还 显示 了 这 些 线程 等 待 了 
多 长 的 时 间 ， 其 中 “waiters flag” 显 示 了 有 多 少 个 等 待 者 正在 等 待 同一 个 
ARE 








MA “wait is ending” 意 味 着 这 个 互 斥 量 实 际 上 已 经 被 释放 了 ， 但 操 
作 系 统 还 没 把 线程 调度 过 来 运行 。 





你 可 能 想 知 道 InnoDB 真 正 等 待 的 是 什么 。InnoDB 使 用 了 互 斥 量 和 
音 号 量 来 保护 代码 的 临界 区 ， 例 如 ， 限 定 每 次 只 能 有 一 个 线程 进入 临界 
区 ， 或 者 是 当 有 活动 的 读 时 ， 就 限制 号 入 等 。 在 InnoDB 代 码 里 有 很 多 
临界 区 ， 在 合适 的 条 件 下 ， 它 们 都 可 能 出 现在 那里 。 常 常 能 见 到 的 一 种 
情形 就 是 获取 缓冲 池 分 页 的 访问 权 。 














在 等 待 线程 的 列表 之 后 ， 第 13 和 14 行 显示 了 更 多 的 事件 计数 器 。 第 
13 行 显示 的 是 跟 互 斥 量 相关 的 几 个 计数 器 ， 第 14 行 用 于 显示 读 / 写 共 主 
和 排他 锁 的 计数 器 。 在 每 一 个 情形 中 ， 都 能 看 到 InnoDB 依 靠 操 作 系统 
等 符 的 频 度 。 











InnoDB 有 着 一 个 多 阶段 等 待 策略 。 首 先 ， 它 会 试 着 对 锁 进 行 空 等 
待 。 如 果 经 过 了 一 个 预 设 的 空转 等 待 周期 〈 设 
置 innodb_sync_spin_loops 配 置 变 量 指令 ) 之 后 还 没有 成 功 ， 那 就 会 退 
到 更 昂贵 更 复杂 的 等 待 数 组 中 。 和 多 





空转 等 待 的 成 本 相对 比较 低 ， 但 是 它们 要 不 停 地 检查 一 个 资源 是 否 
能 被 锁定 ， 这 种 方式 会 消耗 CPU 周 期 。 但 是 ， 这 没有 听 起 来 那么 糟糕 ， 
因为 当 人 处 理 器 在 等 等/JO 时 ， 一 般 都 有 一 些 空闲 的 CPU 周 期 可 用 ， 即 使 








是 没有 空闲 的 CPU 周期 ， 空 等 也 要 比 其 他 方式 更 加 廉价 一 些 。 然 而 ， 当 
另外 一 条 线程 能 做 一 些 事情 时 ， 空 转 等 竺 也 还 会 独占 处 理 需 。 


空转 等 待 的 谷 换 方案 就 是 让 操作 系统 做 上 下 文 切换 ， 这 样 ， 当 这 个 
线程 在 等 等 时 ， 力 外 一 个 线程 就 可 以 个 运 行 ， 然 后 ， 通 过 等 待 数 组 里 的 
信号 量 发 出 信号 ， 唤 醒 那 个 沉睡 的 线程 。 通 过 信号 量 来 发 送信 号 是 比较 
有 效率 的 ， 但 是 上 下 文 切换 束 很 昂 贯 ， 这 很 快 就 会 积 少 成 多 : 每 秒 钟 几 
干 次 的 切换 会 引发 大 量 的 系统 开销 。 














你 可 以 通过 改变 系统 变量 innodb sync_spin_ loops 的 值 ， 试 着 在 空 
转 等 待 与 操作 系统 等 待 之 间 达 成 平衡 。 不 要 担心 空转 等 待 ， 除 非 你 在 每 
一 秒 里 会 看 到 许多 空转 等 待 〈 大 概 是 几 十 万 这 个 水 平 ) 。 这 经 党 需 要 理 
解 源 代 码 或 咨询 专家 才能 解决 。 同 样 也 可 以 考虑 使 用 Performance 
Schema， 或 看 一 下 SHOW ENGINE INNODB MUTEX. 





LATEST FOREIGN KEY ERROR 


下 一 段 ， 即 LATEST FOREIGN KEY ERROR， 一 般 不 会 出 现 ， 除 非 你 的 
服务 器 上 有 外 键 错误 。 在 源 代码 里 有 许多 地 方 会 生成 这 样 的 输出 ， 具 体 
取决 于 错误 的 类 型 。 有 时间 题 在 于 事务 在 插入 、 更 新 或 删除 一 条 记录 时 
要 寻找 到 父 行 或 子 行 。 还 有 些 时 候 是 当 InnoDB 尝 试 增加 或 删除 一 个 外 
键 ， 或 修改 一 个 已 经 存在 的 外 键 时 ， 发 现 表 之 间 类 型 不 匹配 。 











这 部 分 输出 对 于 调试 与 nnoDB 往 往 不 明确 的 外 键 错误 相对 应 的 准 
确 原因 非常 有 帮助 。 让 我 们 看 几 个 例子 。 首 先 ， 创 建 有 外 键 关 系 的 两 个 
表 ， 然 后 插入 少量 数据 。 


CREATE TABLE parent ( 

parent_id int NOT NULL, 

PRIMARY KEY(parent_id) 
) ENGINE=InnoDB; 
CREATE TABLE child ( 

parent_id int NOT NULL, 

KEY parent_id (parent_id), 

CONSTRAINT child_ibfk_1 FOREIGN KEY (parent_id) REFERENCES 
) ENGINE=InnoDB; 
INSERT INTO parent(parent_id) VALUES(1); 
INSERT INTO child(parent_id) VALUES(1); 


有 两 种 基本 的 外 键 错误 。 以 某 种 可 能 违反 外 键 约束 关系 的 方法 增 
加 、 更 新 或 删除 数据 ， 将 导致 第 一 类 错误 。 例 如 ， 以 下 是 当 我 们 从 父 表 
中 删除 行 时 发 生 的 事情 。 





DELETE FROM parent; 
ERROR 1451 (23000): Cannot delete or update a parent row: a f 
fails (`test/child`, CONSTRAINT ~“child_ibfk_1° FOREIGN KEY (` 


parent ”( parent_ id )) 








错误 信息 相当 直接 明了 ， 对 所 有 由 增加 、 更 新 或 删除 不 匹配 的 行 导 
致 的 错误 都 会 看 到 相似 的 信息 。 下 面 是 SHOW ENGINE INNODB STATUS 的 
输出 。 


4 070913 10:57:34 Transaction: 

5 TRANSACTION 0 3793469, ACTIVE © sec, process no 5488, OS th 
updating or deleting, thread declared inside InnoDB 499 

6 mysql tables in use 1, locked 1 

7 4 lock struct(s), heap size 1216, undo log entries 1 

8 MySQL thread id 9, query id 305 localhost baron updating 

9 DELETE FROM parent 

10 Foreign key constraint fails for table ‘test/child’: 

11 

12 CONSTRAINT `child_ibfk_1` FOREIGN KEY (`parent_id`) REFERE 
id`) 

13 Trying to delete or update in parent table, in index `PRIM 

14 DATA TUPLE: 3 fields; 

15 0: len 4; hex 80000001; asc ;; 1: len 6; hex 00000039e 

7; hex 000000002d0e24; asc - $;; 

16 

17 But in child table `test/child`, in index ‘parent_ id, t 

18 PHYSICAL RECORD: n_fields 2; compact format; info bits 0 


19 0: len 4; hex 80000001; asc ;; 1: len 6; hex 00000000 
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于 破坏 外 键 约束 的 事务 详情 。 后 面 会 再 解释 这 些 行 。 第 10 一 19 行 显示 了 
发 现 错误 时 InnoDB 正 尝试 修改 的 准确 数据 。 输 出 中 有 许多 是 转换 成 可 
打印 格式 的 行 数据 。 关 于 这 点 我 们 同样 会 在 后 面 再 加 以 说 明 。 


到 目前 为 止 还 没有 什么 问题 ， 但 有 另外 一 类 的 外 键 错误 ， 可 能 会 让 
调试 更 难 。 以 下 是 当 我 们 答 试 修改 父 表 时 所 发 生 的 。 


ALTER TABLE parent MODIFY parent_id INT UNSIGNED NOT NULL; 
ERROR 1025 (HY000): Error on rename of './test/#sql-1570_9' t 


(errno: 150) 


这 就 没有 那么 清楚 了 ， 但 SHOW ENGINE INNODB STATUS 的 文本 给 了 
些 指 引信 息 。 


070913 11:06:03 Error in foreign key constraint of table 


there is no index in referenced table which would contain 


referenced table do not match to the ones in table. Const 


了 


4 
5 
6 the columns as the first columns, or the data types in th 
7 
8 
9 


CONSTRAINT child_ibfk_1 FOREIGN KEY (parent_id) REFERENCE 
10 The index in the foreign key in table is parent_id 
11 See http://dev.mysgql.com/doc/refman/5.0/en/innodb -foreign- 


12 for correct foreign key definition. 


本 例 中 的 错误 是 数据 类 型 不 同 。 外 键 列 必须 有 完全 相同 的 数据 类 
型 ， 包 括 任何 修饰 符 《〈 例 如 本 例 中 的 UNS1GNED， 这 也 是 问题 所 在 ) 。 当 
看 到 1025 错 误 并 不 理解 为 什么 时 ， 最 好 查看 SHOW ENGINE INNODB 
STATUS. 


在 每 次 有 新 错误 时 ， 外 键 错 误 信 息 都 会 被 重 写 。Percona Toolkit! 
的 pt-fk-error-logger 工 具 可 以 保存 这 些 信息 以 供 后 续 分 析 。 


LATEST DETECTED DEADLOCK 


跟 上 面 的 外 键 部 分 一 样 ，LATEST DETECTED DEADLOCK 部 分 也 只 有 当 
服务 器 内 有 死 锁 时 才 会 出 现 。 死 锁 错 误 信 息 同 样 在 每 次 有 新 错误 时 都 会 
重 写 ，Percona Toolkit 中 的 pt-deadlock-logger 工 具 可 以 保存 这 些 信息 以 供 
后 续 分 析 。 


死 锁 在 等 待 关 系 图 里 是 一 个 循环 ， 就 是 一 个 锁定 了 行 的 数据 结构 又 
在 等 待 别 的 锁 。 这 个 循环 可 以 任意 地 大 。InnoDB 会 立即 检测 到 死 锁 ， 
因为 每 当 有 事务 等 待 行 锁 的 时 候 ， 它 都 会 去 检查 等 待 关系 图 里 是 否 有 循 
环 。 死 锁 的 情况 可 能 会 比较 复杂 ， 但 是 ， 这 一 部 分 只 显示 了 最 近 两 个 死 
锁 的 情况 ， 它 们 在 各 自 的 事务 里 执行 的 最 后 一 条 语句 ， 以 及 它们 在 图 里 
形成 循环 锁 的 信息 。 在 这 个 循环 里 你 看 不 到 其 他 事务 ， 也 看 不 到 在 事务 
里 早先 可 能 真正 获得 了 锁 的 语句 。 尽 管 如 此 ， 通 常 还 是 可 以 通过 查看 这 
些 答 出 结果 来 确定 到 底 是 什么 引起 了 死 锁 。 























在 ImnoDB 里 实际 上 有 两 种 死 锁 。 第 一 种 就 是 人 们 常常 碰 到 的 那 
种 ， 它 在 等 待 关 系 图 里 是 一 个 真正 的 循环 。 另 外 一 种 就 是 在 一 个 等 待 关 
系 图 里 ， 因 代价 昂贵 而 无 法 检查 它 是 不 是 包含 了 循环 。 如 果 InnoDB 要 
在 关系 图 里 检查 超过 100 万 个 锁 ， 或 者 在 检查 过 程 中 ， InnoDB 要 重 做 
200 个 以 上 的 事务 ， 那 它 束 会 放弃 ， 并 宣布 这 里 有 一 个 死 锁 。 这 些 数 值 
都 是 便 编 码 在 InnoDB 代 码 里 的 和 常量， 无 法 配置 (如 果 你 愿意 ， 可 以 在 
代码 里 更 改 这 些 数值 ， 然 后 重新 编译 ) 。 当 InnoDB 的 检查 工作 超过 这 
个 极限 后 ， 它 就 会 引发 一 个 死 锁 ， 这 时 你 就 可 以 在 输出 里 看 到 一 条 信 
息 “TOO DEEP OR LONG SEARCH IN THE LOCK TABLE WAITS-FOR 
GRAPH”. 














InnoDB 不 仅 会 打印 出 事务 和 事务 持 有 及 等 竺 的 锁 ， 而 且 还 有 记录 


ALY 
显示 。 


这 些 信息 主要 对 于 InnoDB 开 发 者 有 用 ， 但 目前 也 没有 办 法 禁止 
不 焉 的 是 ， 它 会 变 得 很 大 ， 以 致 超过 为 输出 结果 预 留 的 长 度 ， 使 





你 无 法 看 到 下 面 几 段 输出 信息 。 对 此 唯一 的 补救 办 法 是 ， 制 造 一 个 小 的 
死 锁 来 蔡 换 那个 大 的 死 锁 ， 或 者 使 用 Percona Server， 访 服务 器 软件 增加 





了 配置 变量 来 抑制 过 于 详尽 的 文本 。 


下 面 是 一 个 死 锁 信 息 的 样 例 。 


070913 11:14:21 
*** (1) TRANSACTION: 
TRANSACTION © 3793488, ACTIVE 2 sec, process no 5488, OS th 
starting index read 
mysql tables in use 1, locked 1 
LOCK WAIT 4 lock struct(s), heap size 1216 
MySQL thread id 11, query id 350 localhost baron Updating 
UPDATE test.tiny_dl SET a = 0 WHERE a <> 0 
*** (1) WAITING FOR THIS LOCK TO BE GRANTED: 
RECORD LOCKS space id 0 page no 3662 n bits 72 index `GEN_ 
“test/tiny_dl° trx id © 3793488 lock_mode X waiting 
Record lock, heap no 2 PHYSICAL RECORD: n_fields 4; compac 


0: len 6; hex 000000000501 ...[ omitted | 


*** (2) TRANSACTION: 


17 


18 
19 
20 
21 
22 
23 


24 
25 
26 
27 
28 


29 
30 
31 
32 


TRANSACTION © 3793489, ACTIVE 2 sec, process no 5488, OS t 
starting index read, thread declared inside InnoDB 500 
mysql tables in use 1, locked 1 

4 lock struct(s), heap size 1216 

MySQL thread id 12, query id 351 localhost baron Updating 
UPDATE test.tiny_dl SET a = 1 WHERE a <> 1 

*** (2) HOLDS THE LOCK(S): 

RECORD LOCKS space id 0 page no 3662 n bits 72 index `GEN_ 
“test/tiny dl trx id © 3793489 lock mode S 

Record lock, heap no 1 PHYSICAL RECORD: n_fields 1; compac 


0: ... [ omitted | 


*** (2) WAITING FOR THIS LOCK TO BE GRANTED: 
RECORD LOCKS space id © page no 3662 n bits 72 index ~GEN_ 


`test/tiny_dl` trx id © 3793489 lock_mode X waiting 


Record lock, heap no 2 PHYSICAL RECORD: n_fields 4; compac 


0: len 6; hex 000000000501 ...[ omitted | 


*** WE ROLL BACK TRANSACTION (2) 





第 4 行 显示 的 是 死 锁 发 生 的 时 间 ， 第 5 一 10 行 显示 的 古 死 锁 里 的 第 一 
个 事务 的 信息 。 在 下 一 节 里 ， 我 们 会 详尽 地 解释 这 些 输出 的 含义 。 


第 11 一 15 行 显示 的 是 当 死 锁 发 生 时 ， 事 务 1 正 在 等 待 的 锁 。 我 们 久 
略 了 其 中 第 14 ” 行 的 信息 ， 那 是 因为 这 只 对 调试 才 有 用 。 这 里 要 特别 注 
意 的 内 容 是 第 12 行 ， 它 告诉 你 这 个 事务 正在 等 待 对 test. tiny_d1 表 中 的 
GEN_CLUST_INDEX 久 索引 上 排他 锁 (X 锁 〉。 





第 16 一 21 行 显示 的 是 第 二 个 事务 的 状态 ， 第 22 一 26 行 显示 的 是 该 事 
务 持 有 的 锁 。 为 了 简洁 起 见 ， 在 第 25 行 有 几 条 记录 已 经 被 我 们 删 去 了 。 
这 些 记 录 里 有 一 条 就 是 第 一 个 事务 正在 等 待 的 那 一 条 。 最 后 ， 第 27 一 31 
行 显示 了 它 正 在 等 待 的 是 哪 一 个 锁 。 











当 一 个 事务 持 有 了 其 他 事务 需要 的 锁 ， 同 时 又 想 获 取 其 他 事务 持 有 
的 锁 时 ， 等 待 关系 图 上 就 会 产生 循环 了 。InnoDB 不 会 显示 所 有 持 有 和 
等 符 的 锁 ， 但 是 ， 它 显示 了 足够 的 信息 来 帮 你 确定 : 碍 询 操作 正在 使 用 
哪些 索引 。 这 对 于 你 确定 是 人 否 能 避免 死 锁 有 着 极 大 的 价值 。 











如 采 能 使 两 个 查询 对 同一 个 乏 引 明 同 一 个 方 癌 进行 扫描 ， 惑 能 降低 
和 死 锁 的 数目 ， 因 为 ， 碍 询 在 同一 顺序 上 请 求 锁 的 时 候 不 会 创建 循环 。 有 
时 候 ， 这 是 很 容易 做 到 的 ， 举 例 来 说 ， 如 果 要 在 一 个 事务 里 更 新 许多 条 
记录 ， 就 可 以 在 应 用 程序 的 内 存 里 把 它们 按 主键 进行 排序 ， 然 后 ， 再 用 
同样 的 顺 友 更 新 到 数据 库 ， 这 样 束 不 会 有 死 锁 的 发 生 。 但 是 在 力 一 些 时 
候 ， 这 个 方法 也 是 行 不 通 的 “例如 有 两 个 进程 使 用 了 不 同 的 索引 区 间 操 
作 同 一 张 表 的 时 候 ) 。 








第 32 行 显示 的 是 哪个 事务 被 选中 成 为 死 锁 的 牺牲 品 。InnoDB 会 把 
看 上 去 最 容易 回 滚 〈 就 是 更 新 的 记录 数 最 少 的 ) 的 事务 选 为 牺牲 品 。 


检测 这 些 常规 日 志 ， 从 中 找 出 线程 所 涉及 的 查询 ， 然 后 看 一 下 到 底 
是 什么 导致 死 锁 ， 这 非常 有 用 。 下 节 将 介绍 在 哪里 可 以 查找 到 死 锁 输出 
中 的 线程 ID。 


TRANSACTIONS 





ANT SHER InnoDB FN aia, A ae SHG 


跃 事务 列表 。 以 下 是 前 几 行 信息 《〈 头 部 ) 。 


4 Trx id counter 0 80157601 
5 Purge done for trx's n:o <0 80154573 undo n:o <0 0 
6 History list length 6 


7 Total number of lock structs in row lock hash table 0 
输出 会 因 MySQL 版 本 不 同 而 变化 ， 但 至 少 包 括 如 下 几 点 。 


BAT: 当前 事务 的 ID， 这 是 一 个 系统 变量 ， 每 创建 一 个 新 事务 都 
会 增加 。 

第 5 行 : 这 是 InnoDB 清 除 旧 MVCC 行 时 所 用 的 事务 ID。 将 这 个 值 和 
当前 事务 ID 进行 比较 ， 可 以 知道 有 多 少 老 版 本 的 数据 未 被 清除 。 这 
个 数字 多 大 才 可 以 安全 的 取 值 没有 硬性 和 速成 的 规定 。 如 果 数 据 没 
做 过 任何 更 新 ， 那 么 一 个 巨大 的 数字 也 不 意味 着 有 未 清除 的 数据 ， 
因为 实际 上 所 有 事务 在 数据 库 里 查看 的 都 是 同一 个 版 本 的 数据 。 从 
另 一 方面 来 讲 ， 如 果 有 很 多 行 被 更 新 ， 那 每 一 行 就 会 有 一 个 或 多 个 
版 本 留 在 内 存 里 。 减 少 此 类 开销 的 最 好 办 法 是 确保 事务 一 完成 就 立 
即将 它 提交 ， 不 要 让 它 长 时 间 地 处 于 打开 的 状态 。 因 为 一 个 打开 的 
事务 即使 不 做 任何 操作 ， 也 会 影响 到 InnoDB 清理 旧版 本 的 行 数 
据 。 

同样 是 在 第 5 行 里 ， 还 有 一 项 InnoDB 清理 进程 正在 使 用 的 撤销 日 
志 编号 ， 如 果 有 的 话 。 如 果 它 是 “0 0”， 如 在 本 例 中 一 样 ， 说 明 清 理 
进程 处 于 空闲 状态 。 


























。 第 6 行 : 历史 记录 的 长 度 ， 即 位 于 InnoDB 数据 文件 的 撤销 空间 里 的 
页 面 的 数目 。 如 果 事 务 执行 了 更 新 并 提交 ， 这 个 数字 束 会 增加 ; 而 
当 清 理 进 程 移 除 旧 版 本 数据 时 ， 它 就 会 递减 。 清 理 进 程 也 会 更 新 第 
5 行 中 的 数值 。 

。 第 7 行 : 锁 结构 的 数目 。 每 一 个 锁 结构 经 常 持 有 许多 个 行 锁 ， 所 
以 ， 它 跟 被 锁定 行 的 数目 不 一 样 。 











头 部 信息 之 后 就 是 一 个 事务 列表 。 当 前 版 本 的 MySQL 还 不 支持 内 
套 事务 ， 因 此 ， 在 茶 个 时 间 点 上 ， 每 个 客户 端 连 接 能 拥有 的 事务 数目 是 
有 一 个 上 限 的 ， 而 且 每 一 个 事务 只 能 属于 单一 连接 。 在 输出 信息 里 ， 
一 个 事务 至 少 占 有 两 行内 容 。 下 面 这 个 例子 就 是 关于 一 个 事务 所 能 看 到 
的 最 少 的 信息 。 














1 ---TRANSACTION © 3793494, not started, process no 5488, OS 
2 MySQL thread id 15, query id 479 localhost baron 


第 1 行 以 该 事务 的 ID 和 状态 开始 。 这 个 事务 是 aot started”, BEE 
已 经 提交 并 且 没 有 再 发 起 影响 事务 的 语句 ， 可 能 刚好 空 亲 。 然 后 是 一 些 
进程 和 线程 信息 。 第 2 行 显示 了 MySQL 进 程 ID， 也 和 SHOW FULL 
PROCESSL1ST 中 的 1d 列 相同 。 紧 随 其 后 的 是 一 个 内 部 查询 号 和 一 些 连接 
SE (同样 与 SHOW FULL PROCESSLIST 中 的 相同 ) 。 








然而 ， 每 个 事务 会 打印 比 这 多 得 多 的 信息 。 下 面 是 一 个 稍 复杂 一 些 
的 例子 。 








1 ---TRANSACTION © 80157600, ACTIVE 4 sec, process no 3396, O 
thread declared inside InnoDB 442 


2 mysql tables in use 1, locked 0 


3 MySQL thread id 8079, query id 728899 localhost baron Sendi 
4 select sql_calc_found_rows * from b limit 5 


5 Trx read view will not see trx with id>= 0 80157601, sees < 





本 例 中 的 第 1 行 显示 此 事务 已 经 处 于 活跃 状态 4s。 可 能 的 状态 有 “not 
started”、“active”、“prepared” 和 “committed in memory”( 一 旦 被 提交 到 
磁盘 上 ， 状 态 就 会 变 为 “not started”) 。 尽 管 在 这 个 示例 里 没有 显示 ， 但 
是 在 其 他 条 件 下 ， 你 也 许 能 看 到 关于 事务 当前 正在 做 什么 的 信息 。 在 源 
代码 中 有 超过 30 个 字符 串 常 量 可 以 显示 在 这 里 ， 例 如 *fetching 


rows”, “adding foreign keys”， 等 等 。 





第 1 行 里 的 文本 “thread declared inside InnoDB 442” 的 意思 是 该 线程 
正在 InnoDB 内 核 里 做 一 些 操作 ， 并 且 ， 还 有 442 张 “ 票 ” 可 以 使 用 。 换 句 
Tait, BAI AEAYSQL 查询 可 以 重新 进入 InnoDB 内 核 442 次 。 这 
个 “ 票 " 是 系统 用 来 限制 内 核 中 线程 并 发 操作 的 手段 ， 以 防止 其 在 某 些 平 
台 上 运行 失常 。 即 使 线程 的 状态 是 “inside InnoDB”， 它 也 不 是 在 InnoDB 
里 面 完 成 所 有 的 工作 。 查 询 可 能 是 在 服务 器 一 级 做 一 些 操作 ， 而 只 是 通 
过 某 个 途径 跟 InnoDB 内 核 互 动 一 下 。 你 也 可 能 看 到 事务 的 状态 
是 “sleeping before joining InnoDB queue” 或 者 “waiting in InnoDB 


queue” - 








接 下 来 一 行 显示 了 当前 语句 里 有 多 少 表 和 被 使 用 和 锁定 。InnoDB 一 
般 不 会 锁定 表 ， 但 对 有 些 语句 会 锁定 。 如 果 MySQL 服 务 器 在 高 于 
InnoDB 层 次 之 上 将 表 锁 定 ， 这 里 也 是 能 够 显示 出 来 的 。 如 采 事务 已 经 
锁定 了 几 行 数 据 ， 这 里 将 会 有 一 行 信息 显示 出 锁定 结构 的 数目 《再 声明 
一 次 ， 这 跟 行 锁 是 两 回 事 ) 和 堆 的 大 小 。 有 基体 例子 可 以 碍 看 之 前 的 死 锁 
输出 信息 。 在 MySQL 5.1 及 更 新 的 版 本 里 ， 这 一 行 还 显示 了 当前 事务 持 
有 的 行 锁 的 实际 数目 。 














堆 的 大 小 指 的 是 为 了 持 有 这 些 行 锁 而 占用 的 内 存 大 小 。InnoDB 是 
用 一 种 特殊 的 位 图 表 来 实现 行 锁 的 ， 从 理论 上 讲 ， 它 可 将 每 一 个 锁定 的 
行 表示 为 一 个 比特 。 我 们 的 测试 显示 ， 每 一 个 锁 通 种 不 超过 4 比特 。 





本 例 中 的 第 3 行 包 含 的 信息 略微 多 于 上 例 中 的 第 2 行 : 在 该 行 的 末尾 
是 线程 状态 “Sending data”， 这 跟 SHOW FULL PROCESSLIST 中 所 看 到 的 
Command 列 相同 。 














如 果 事务 正在 运行 一 个 查询 ， 那 么 接 下 来 就 会 显示 出 查询 的 文本 
(或 者 ， 在 某 些 版 本 的 MySQL E, 显示 其 中 的 一 小 段 ，， 在 本 例 中 是 
第 4 行 。 


第 5 行 显示 了 事务 的 读 视图 ， 它 表明 了 因为 版 本 关系 而 产生 的 对 于 
事务 可 见 和 不 可 见 两 种 类 型 的 事务 ID 的 范围 。 在 本 例 中 ， 在 两 个 数字 之 
间 有 一 个 四 个 事务 的 间 隐 ， 这 四 个 事务 可 能 是 不 可 见 的 。InnoDB 在 执 
行 查询 时 ， 对 于 那些 事务 ID 正好 在 这 个 间 隐 的 行 ， 还 会 检查 其 可 见 性 。 





如 果 事 务 正在 等 待 一 个 锁 ， 那 么 在 查询 内 容 之 后 将 可 以 看 到 这 个 锁 
的 信息 。 在 上 文 的 死 锁 例子 里 ， 这 样 的 信息 已 经 看 到 过 多 次 了 。 不 幸 的 
是 ， 输 出 信息 并 没有 说 出 这 个 锁 正 被 其 他 哪个 事务 持 有 。 如 果 使 用 了 
InnoDB 插 件 ， 就 可 以 在 MySQL 5.1 及 更 高 版 本 中 的 1NFORMAT1ON-SCHEMA 
表 中 查 明 这 一 点 。 


如 果 输 出 信息 里 有 很 多 个 事务 ，InnoDB 可 能 会 限制 要 打印 出 来 的 
事务 数目 ， 以 免 输出 信息 增长 得 太 大 。 这 时 束 会 看 到 “...truncated..”。 





FILE I/O 





FILE 1Z0 部 分 显示 的 是 IO 辅助 线程 的 状态 ， 还 有 性 能 计数 器 的 状 


人 
2 FILE I/0 
站 


I/O thread 0 state: waiting for i/o request (insert buffer 


I/O thread 1 state: waiting for i/o request (log thread) 


4 
5 
6 I/O thread 2 state: waiting for i/o request (read thread) 
7 I/O thread 3 state: waiting for i/o request (write thread) 
8 Pending normal aio reads: ©, aio writes: 0, 

9 ibuf aio reads: 0, log i/o's: ©, sync i/o's: 0 

10 Pending flushes (fsync) log: 0; buffer pool: 0 

11 17909940 OS file reads, 22088963 OS file writes, 1743764 0 


12 0.20 reads/s, 16384 avg bytes/read, 5.00 writes/s, 0.80 fs 


第 4 一 7 行 显示 了 IO 辅助 线程 的 状态 。 第 8 一 10 行 显示 的 是 每 个 辅助 
线程 的 挂 起 操作 的 数目 ， 以 及 日 志和 缓冲 池 线 程 挂 起 的 fyncO 操 作 数 
目 。 简 写 “aio” 的 意思 是 “异步 ”IO”。 第 11 行 显示 了 读 、 写 和 fsyncO 调 用 
执行 的 数目 。 在 你 的 负载 下 这 些 绝对 值 会 有 所 不 同 ， 因 此 更 重要 的 是 监 
控 它 们 过 去 一 段 时 间 内 是 如 何 改变 的 。 第 12 行 显示 了 在 头 部 显示 的 时 间 
段 内 的 每 秒 平均 值 。 





在 第 8 一 9 行 显示 的 挂 起 值 是 检测 VO 受 限 的 应 用 的 一 个 好 方法 。 如 
果 这 些 IO 大 部 分 有 挂 起 的 操作 ， 那 么 负载 可 能 MO 受 限 。 


在 Windows 下 ， 可 以 通过 innodb file io _ threads 配 置 变量 来 调整 
IO 辅助 线程 数 ， 因 此 可 能 会 看 到 不 止 一 个 读 线程 和 写 线程 。 在 使 用 了 


InnoDB 插 件 的 MySQL 5.1 和 更 新 版 本 中 ， 或 Percona Server 中 ， 可 以 使 
用 innodb read io _ threads 和 innodb write io threads 来 为 读 / 写 配置 
多 个 线程 。 然 而 ， 在 所 有 平台 下 至 少 总 会 看 到 4 个 线程 。 





Insert buffer thread 


负责 插入 缓冲 合并 《例如 ， 记 录 被 从 插入 缓冲 合并 到 表 空 间 
HH) 


Log thread 





负责 异步 刷 日 志 。 
Read thread 

执行 预 读 操 作 以 党 试 预 先 读 取 InnoDB 预 感 需要 的 数据 。 
Write thread 


WIEZY. 


INSERT BUFFER AND ADAPTIVE 
HASH INDEX 


2 INSERT BUFFER AND ADAPTIVE HASH INDEX 


Ibuf for space 0: size 1, free list len 887, seg size 889, 
Ibuf for space 0: size 1, free list len 887, seg size 889, 
2431891 inserts, 2672643 merged recs, 1059730 merges 


Hash table size 8850487, used cells 2381348, node heap has 


co N O A RA 


2208.17 hash searches/s, 175.05 non-hash searches/s 





第 4 行 显示 了 关于 插入 缓存 大 小 、*free ee 
BH. MA“for space 0"” 像 是 指明 了 多 个 插入 缓冲 的 可 能 性 
a 
了 。 只 有 一 个 插入 缓冲 ， 因 此 第 5 行 真 的 是 多 余 的 。 第 6 行 显示 了 有 多 少 
缓冲 操作 已 经 完成 。 合 并 与 插入 的 比例 很 好 地 说 明了 缓冲 使 用 效率 如 
何 。 











第 7 行 显示 了 目 适 应 哈 希 索引 的 状态 。 第 8 行 显示 了 在 头 部 提 及 的 时 
间 内 InnoDB 完 成 了 多 少 哈 希 索 引 操作 。 哈 希 索 引得 找 与 非 哈 硕 索 引 坦 
找 的 比例 仅 供 参考 。 目 适应 索引 无 法 配置 。 








LOG 


这 部 分 显示 了 关于 InnoDB 事 务 日 志 ( 重 做 日 志 ) 子 系统 的 统计 。 


Log sequence number 84 3000620880 


ol aS CD N e 
I 
I 
1 


Log flushed up to 84 3000611265 


6 Last checkpoint at 84 2939889199 
7 © pending log writes, © pending chkp writes 


8 14073669 log i/o's done, 10.90 log i/o's/second 




















第 4 行 显示 了 当前 日 志 序 号 ， 第 5 行 显示 了 日 志 己 经 刷 到 哪个 位 置 。 

志 序 号 就 是 写 到 日 志文 件 中 的 字 节 数 ， 因 此 可 用 来 计算 日 志 缓冲 中 还 
有 多 少 没 有 写 入 到 日 志文 件 中 。 在 这 个 例子 中 ， 它 有 9615 字 节 〈13 000 
620 880 一 13 000 611 265) 。 第 6 行 显示 了 上 一 检测 点 (一 个 检测 点 表示 
一 个 数据 和 日 志文 件 都 处 于 已 知 状态 的 时 刻 ， 并 且 能 用 于 恢复 ) 。 如 果 
上 一 检查 点 落后 日 志 序 号 太 多 ， 并 且 差 异 接近 于 该 日 志文 件 的 大 小 ， 
InnoDB 会 触发 < 疯狂 刷 ”， 这 对 性 能 而 言 非常 糟糕 。 第 7 一 8 行 显示 了 挂 起 
的 日 志 操作 和 统计 ， 你 可 以 将 其 与 FILE IO 部 分 的 值 相 比较 ， 以 了 解 你 
的 VO 有 多 少 是 由 日 志 子 系统 引起 ， 有 多 少 是 其 他 原因 。 
































BUFFER POOL AND MEMORY 


这 部 分 显示 了 关于 InnoDB 绥 冲 池 及 其 如 何 使 用 内 存 的 统计 。 


Total memory allocated 4648979546; in additional pool alloc 
Buffer pool size 262144 

Free buffers 0 

Database pages 258053 

Modified db pages 37491 


o ao N O A A 


Pending reads 0 


10 Pending writes: LRU ©, flush list 0, single page 0 
11 Pages read 57973114, created 251137, written 10761167 
12 9.79 reads/s, 0.31 creates/s, 6.00 writes/s 


13 Buffer pool hit rate 999 / 1000 


第 4 行 显示 了 由 InnoDB 分 配 的 总 内 存 ， 以 及 其 中 多 少 是 额外 内 存 池 
分 配 。 额 外 内 存 池 仅 分 配 了 其 中 《一 般 很 小 ) 一 部 分 的 内 存 ， 由 内 部 内 
存 分 配器 分 配 。 现 代 的 InnoDB 版 本 一 般 使 用 操作 系统 的 内 存 分 配器 ， 
但 老 版 本 使 用 自己 的 ， 这 是 由 于 在 那个 时 代 有 些 操作 系统 并 未 提供 一 个 
非常 好 的 实现 。 





第 5 一 8 行 显示 了 缓冲 池上 度量 值 ， 以 页 为 单位 。 度 量 值 有 总 的 缓冲 池 
大 小 、 空 闲 页 数 、 分 配 用 来 存储 数据 库 页 的 页 数 ， 以 及 “及 ”数据库 页 
数 。InnoDB 使 用 缓冲 池 中 的 部 分 页 来 对 锁 、 目 适应 哈 希 ， 以 及 其 他 系 
统 结构 做 索引 ， 因 此 池 中 的 数据 库 页 数 永 远 不 等 于 总 的 池 大 小 。 





第 9 一 10 行 显示 了 挂 起 的 读 和 写 的 数量 〈 例 如 InnoDB 需 要 为 缓冲 池 
而 做 的 总 的 逻辑 读 和 写 ) 。 这 些 值 并 不 与 FILE _ 170 部 分 的 值 相 匹 配 ， 因 
为 InnoDB 可 能 合并 许多 的 逻辑 操作 到 一 个 物理 IO 操作 中 。LRU 人 代表“ 最 
近 使 用 到 的 ”; 它 是 通过 冲刷 缓冲 中 不 经 常 使 用 的 页 来 释放 空间 以 供给 
经 常 使 用 的 页 的 一 种 方法 。 冲 刷 列表 存放 有 检测 点 处 理 需要 冲刷 的 旧 
页 ， 并 且 单 页 的 写 是 独立 的 页 面 写 ， 不 会 被 合并 。 











输出 中 的 第 8 行 显示 绥 冲 池 包 含 37 491 个 脏 页 ， 这 是 在 某 些 时 刻 
《它们 已 经 在 内 存 中 被 修改 但 尚未 写 到 磁盘 上 ) 需要 被 刷 到 磁盘 上 的 。 
然而 ， 第 10 行 显示 当前 没有 安排 冲刷 。 这 不 是 一 个 问题 ， InnoDB 会 在 
需要 时 刷 。 如 果 在 InnoDB 的 状态 输出 中 到 处 可 见 大 量 挂 起 的 MO 操作 ， 
这 往往 表明 服务 器 有 严重 问题 。 


第 11 行 显示 了 InnoDB 被 读 取 、 创 建 和 写 入 了 多 少 页 。 读 / 写 页 的 值 
指 的 是 从 磁盘 读 到 缓冲 池 中 的 数据 ， 或 反 过 来 说 。 创 建 页 的 值 指 的 是 
InnoDB 在 绥 冲 池 中 分 配 但 没有 从 数据 文件 中 读 取 内 容 的 页 ， 因 为 它 并 
不 关心 内 容 是 什么 〈 例 如， 它们 可 能 属于 一 个 已 经 被 删除 的 表 ) 。 








第 13 行 报告 了 缓冲 池 的 命中 率 ， 它 用 来 衡量 ImnoDB 在 绥 冲 池 中 得 
找到 所 需 页 的 比例 。 它 度量 自 上 次 InnoDB 状 态 输出 后 的 命中 率 ， 
此 ， 如 果 服 务 器 自 那 以 后 一 直 很 安静 ， 你 将 会 看 到 “No buffer pool page 
gets since the last printout.”。 它 对 于 度量 缓存 池 的 大 小 并 没有 用 处 。 











在 MySQL 5.5 中 ， 可 能 有 多 个 绥 冲 池 ， 每 一 个 都 会 在 输出 中 打印 一 
部 分 信息 。Percona XtraDB 还 会 在 输出 中 打印 更 多 详情 例如 ， 准 确 
显示 内 存在 哪里 分 配 。 





ROW OPERATIONS 


这 部 分 显示 了 其 他 各 项 InnoDB 统 计 。 
1 


© queries inside InnoDB, © queries in queue 


1 read views open inside InnoDB 


4 
5 

6 Main thread process no. 10099, id 88021936, state: waiting 
7 Number of rows inserted 143, updated 3000041, deleted 0, re 
8 


0.00 inserts/s, 0.00 updates/s, 0.00 deletes/s, 0.00 reads/ 


10 END OF INNODB MONITOR OUTPUT 


第 4 行 显示 了 InnoDB 内 核 内 有 多 少 线程 〈 我 们 在 讨论 TRANSACT10NS 
部 分 的 小 节 中 提 及 过 ) 。 队 列 中 的 查询 是 InnoDB 为 限制 并 发 执行 的 线 
程 量 而 不 允许 进入 内 核 的 线程 。 查 询 同样 在 进入 队列 之 前 会 休眠 等 待 ， 
ee 


这 之 前 已 经 讨论 过 。 


第 5 行 显示 了 有 多 少 打 开 的 InnoDB 读 视图 。 读 视图 是 包含 事务 开始 
点 的 数据 库 内 容 的 MVCC“ 快 照 ?。 你 可 以 看 看 某 特 定 事务 是 否 
在 TRANSACTIONS 部 分 有 读 视 图 。 














第 6 行 显示 了 内 核 的 主线 程 状态 。 可 能 的 状态 值 如 下 。 


e doing background drop tables 

e doing insert buffer merge 

e flushing buffer pool pages 

e flushing log 

e making checkpoint 

e purging 

e reserving kernel mutex 

e sleeping 

e suspending 

e waiting for buffer pool flush to end 


e waiting for server activity 


FER EB RS a EMA HA Bl“sleeping”, WRERL ARE 
而 一 再 查看 到 不 同 的 状态 ， 例 如 “flushing buffer pool pages”， 则 应 该 怀 


疑 相 关 的 活动 有 问题 一 一 例如 , “FEN” ae, AY BE Ee Pl SS 
劲 的 InnoDB 版 本 引起 ， 或 由 糟糕 的 配置 导致 ， 例 如 太 小 的 事务 日 志文 
件 。 





第 7 一 8 行 显示 了 多 少 行 被 插入 、 更 新 、 删 除 和 读 取 ， 以 及 它们 的 每 
秒 均值 。 如 果 想 查看 ImnoDB 有 多 少 工作 在 进行 ， 那 么 它们 是 很 好 的 参 
考 值 。 





SHOW ENGINE INNODB STATUS 输出 在 第 9 一 13 行 结束 。 如 果 看 不 到 这 
个 文本 ， 那 可 能 是 有 一 个 大 的 死 锁 截断 了 输出 。 


SHOW PROCESSLIST 





进程 列表 是 当前 连接 到 MySQL 的 连接 或 线程 的 清单 。SHOW 
PROCESSL1ST 列 出 了 这 些 线程 ， 以 及 每 个 线程 的 状态 信息 。 例 如 : 


mysql> SHOW FULL PROCESSLIST\G 


火 火 大火 大火 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


FOI IO III III IIE q1. row 
Id: 61539 
User: sphinx 
Host: se02:58392 
db: art136 
Command: Query 
Time: 0 
State: Sending data 
Info: SELECT a.id id, a.site_id site_id, unix_timestamp(in 


inserted, forum_id, 


unix_timestamp(p 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


FOI IOI AI IIR IRE OW 
Id: 65094 
User: mailboxer 
Host: db01:59659 
db: link84 
Command: Killed 
Time: 12931 
State: end 
Info: update 1ink84.link_in84 set url to = 


replace(replace(url_to, '&','&'),'%20','+'), 


url_prefix=repl 





有 几 个 工具 《例如 innotop) 可 以 以 定期 刷新 的 方式 显示 进程 列表 。 


也 可 以 从 INFORMATION_SCHEMA 中 的 表 来 获取 这 个 信息 。Percona 
Server 和 MariaDB 癌 这 个 表 中 增加 了 更 多 有 用 的 信息 ， 如 高 精度 的 时 间 
字段 和 显示 查询 完成 百分比 的 字段 ， 这 一 信息 可 用 作 进度 指示 。 





Command 和 State 列 真正 表明 了 线程 的 状态 。 上 面 的 例子 中 ， 第 一 个 
进程 正在 运行 查询 并 发 送 数据 ， 而 第 二 个 进程 已 被 杀 死 ， 这 可 能 是 由 于 
这 需要 非常 长 的 一 段 时 间 来 完成 ， 于 是 某 人 深思 邵 虑 后 通过 K1LL 命 令 终 
结 了 它 。 线 程 有 可 能 在 KILL 状 态 停 留 一 段 时 间 ， 因 为 KILL 命 令 有 可 能 不 
能 立刻 执行 完成 ， 比 如 它 可 能 需要 一 些 时 间 来 回 深 事 务 。 








SHOW FULL PROCESSLIST 〈 增 加 了 FULL 关 键 字 ) 将 显示 每 个 查询 的 
人 全文， 否则 最 多 显示 100 个 字符 。 





SHOW ENGINE INNODB MUTEX 


SHOW ENGINE INNODB MUTEX 返 回 InnoDB 互 斥 体 的 详细 信息 ， 主 要 
对 洞悉 可 扩展 性 和 并 发 性 问题 有 帮助 。 每 个 互 斥 体 都 保护 着 代码 中 一 个 
临界 区 ， 这 在 之 前 已 经 讨论 过 。 





输出 会 因 MySQL 版 本 和 编译 选项 而 有 所 不 同 。 下 面 是 MySQL 5.5 服 
务 器 的 示例 。 


mysql> SHOW ENGINE INNODB MUTEX; 
+ 


-------- +------------------------------+-------------+ 
Type Name Status 

+-------- +------------------------------ +------------- + 
InnoDB | &table->autoinc_mutex os_waits=1 
InnoDB | &table->autoinc_mutex os_waits=1 
InnoDB | &table->autoinc_mutex os_waits=4 
InnoDB | &table->autoinc_mutex os_waits=1 
InnoDB | &table->autoinc_mutex os_waits=12 
InnoDB | &dict_sys->mutex os_waits=1 
InnoDB | &log_sys->mutex os_waits=12 
InnoDB | &fil_system->mutex os_waits=11 


InnoDB | &kernel_mutex os_waits=1 
InnoDB | &dict_table stats _latches[i] | os waits=2 

InnoDB | &dict_table stats _latches[i] | os waits=54 
InnoDB | &dict_table stats _latches[i] | os_waits=1 

InnoDB | &dict_table stats _latches[i] | os_waits=31 
InnoDB | &dict_table stats _latches[i] | os waits=41 
InnoDB | &dict_table stats _latches[i] | os waits=12 
InnoDB | &dict_table stats _latches[i] | os waits=1 

InnoDB | &dict_table stats latches[i] 
] 


os waits=90 














InnoDB | &dict_table stats latches[i os waits=1 
InnoDB | &dict_operation_lock os _waits=13 
InnoDB | &log sys->checkpoint_lock os_waits=66 
InnoDB | combined &block->lock os_waits=2 
+-------- +------------------------------ +------------- + 


基于 等 待 的 数量 ， 可 以 使 用 这 个 输出 来 帮助 确定 InnoDB 的 哪 一 块 
征 瓶 颈 。 只 要 有 互 斥 体 ， 就 会 有 潜在 的 争 用 。 该 命令 的 输出 可 能 会 非常 
多 ， 需 要 写 一 些 脚 本 进行 聚合 分 析 。 


有 三 种 主要 的 策略 可 以 消除 互 斥 相关 的 瓶颈 : 尽量 避 开 InnoDB 的 
弱点 ， 限 制 并 发 ， 或 者 在 CPU 密集 型 的 空转 等 竺 和 资源 密集 型 的 操作 系 





统 等 待 之 间 取 得 平衡 。 这 些 在 本 附录 前 面 和 第 8 章 讨论 过 。 


复制 状态 


MySQL 有 几 个 命令 用 以 监测 复制 。 在 主 库 上 执行 SHOW MASTER 
STATUS 可 显示 主 库 的 复制 状态 和 配置 。 








mysql> SHOW MASTER STATUS\G 
炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 1. row 火 类 类 类 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 
File: mysql-bin.000079 
Position: 13847 
Binlog_Do_DB: 


Binlog_Ignore_DB: 


输出 包含 了 主 库 当 前 的 二 进 制 日 志 位 置 。 通 过 SHOW BINARY LOGSHJ 
以 获取 到 二 进 制 日 志 的 列表 。 


mysql> SHOW BINARY LOGS 
+------------------ +----------- 十 
| Log_name | File size | 


让 fo ei + 
| mysql-bin.000044 | 13677 | 


| mysql-bin.000079 | 13847 | 
+------------------ +----------- 十 
36 rows in set (0.18 sec) 


要 查看 这 些 二 进 制 日 志 中 的 事件 ， 可 以 用 SHOW BINLOG EVENTS。 在 
MySQL 5.5 中 ， 也 可 以 使 用 SHOW RELAYLOG EVENTS. 


在 备 库 上 执行 SHOW SLAVE STATUS 查看 复制 的 状态 和 配置 。 在 此 ， 
我 们 不 予 列举 ， 因 为 输出 有 点 见长 ， 但 我 们 会 说 明 关 于 它 的 几 个 事情 。 
首先 ， 你 可 以 同时 看 到 复制 WO 和 复制 SQL 线 程 的 状态 ， 包 括 任何 错 


误 。 也 可 以 看 到 复制 落后 多 远 。 输 出 中 还 有 三 套 二 级 制 日 志 的 坐标 ， 这 
几 个 坐标 对 于 备份 和 搭 备 库 非 常 有 用 。 


Master_Log_File/Read_Master_Log_Pos 

IO 线程 读 主 库 二 进 制 日 志 的 位 置 。 
Relay_Log File/Relay_Log Pos 

SQL 线程 执行 中 继 日 志 的 位 置 。 
Relay_Master_Log_ File/Exec_Master_Log Pos 


SQL 线程 执行 的 映射 到 主 库 二 进 制 日 志 的 位 置 。 这 
与 Relay Log File/Relay_Log Pos 有 着 相同 的 逻辑 位 置 ， 但 是 主 库 
的 二 进 制 日 志 而 非 复制 的 中 继 日 志 。 换 句 话 说， 如 果 你 看 一 下 日 志 
中 的 这 两 个 位 置 ， 你 会 发 现 有 相同 的 日 志 事件 。 





INFORMATION_SCHEMA 


INFORMAT1ION_SCHEMA 库 是 一 个 SQL 标准 中 定义 的 系统 视图 的 集合 。 
MySQL 实 现 了 许多 标准 中 的 视图 ， 并 且 增 加 了 一 些 其 他 的 视图 。 在 
MySQL ”5.1 中 ， 其 中 许多 的 视图 与 MySQL 的 SHOW 命 令 对 应 ， 例 如 SHOW 


FULL PROCESSLIST#ISHOW STATUS。 然 而 ， 也 有 一 些 视图 并 没有 相对 应 
的 SHOW 命令 。 


INFORMAT10N_SCHEMA 视 图 的 美 在 于 能 够 以 标准 的 SQL 来 进行 查询 。 
这 比 SHOW 命令 更 灵活 ， 因 为 SHOW 命令 产生 的 结 末 不 能 聚合 、 联 接 或 进行 
其 他 标准 SQL 操作 。 在 系统 视图 层 拥 有 所 有 可 获得 的 数据 使 得 写 感 兴趣 
和 有 用 的 查询 变 得 可 行 。 











例如 ， 在 Sakila 样 本 库 中 哪 一 个 表 引 用 了 actor 表 ? 一 致 的 命名 约定 
使 之 很 容易 确定 。 


mysql> SELECT TABLE NAME FROM INFORMATION SCHEMA.COLUMNS 
-> WHERE TABLE SCHEMA="sakila' AND COLUMN_NAME='actor_id' 
-> AND TABLE NAME <> 'actor'; 


+------------ + 
| TABLE_NAME | 
+------------ + 
| actor_info | 
| film actor | 
+------------ 十 


我 们 需要 为 本 书 找 几 个 表 中 含有 多 列 索 引 的 样 例 。 下 面 是 一 个 满足 
再 要 的 碍 询 。 


mysql> SELECT TABLE NAME, GROUP_CONCAT(COLUMN_NAME) 
-> FROM INFORMATION SCHEMA.KEY COLUMN USAGE 
-> WHERE TABLE_SCHEMA='sakila' 
-> GROUP BY TABLE NAME, CONSTRAINT NAME 
-> HAVING ET > 1; 


| film actor | actor id,film id | 
| film category | film id,category id | 
| rental | customer id,rental date,inventory id | 
+--------------- +-------------------------------------- + 








PRA WS ES A A, MAIR is LE — FE. MySQL 
Forge (http://forge.mysql.com) 是 一 个 寻找 和 分 享 针 对 这 些 视图 的 查询 
的 好 地 方 。 有 查找 重复 和 克 余 索引 ， 但 找 非常 低 基 数 的 索引 ， 以 及 更 多 
其 他 的 例子 。 在 Shlomi Noach 的 common_schema 项 目 中 

(http://code.openark.org/forge/common_schema) 中 同样 有 一 组 基于 
INFORMATION_SCHEMA 视 图 所 写 的 有 用 视图 。 





最 大 的 缺点 是 视图 与 相应 的 SHOW 命令 相 比 ， 有 时 非常 慢 。 它 们 一 
般 会 取 所 有 的 数据 ， 存 在 临时 表 中 ， 然 后 使 查询 可 以 获取 临时 表 。 当 服 
务 器 上 数据 量 大 或 表 非 常 多 时 ， 碍 询 INFORMAT1ON_SCHEMA 表 会 导致 非常 
高 的 负载 ， 并 且 会 导致 服务 器 对 其 他 用 户 而 言 停 转 或 不 可 啊 应 ， 因 此 在 
一 个 高 负载 且 数 据 量 大 的 生产 服务 器 上 使 用 时 要 小 心 。 查 询 时 会 有 危险 
的 表 主 要 是 那些 包含 下 列表 元 数据 的 表 : TABLES, COLUMNS, 
REFERENT1AL_CONSTRAINTS，KEY_COLUMN_USAGE， 等 等 。 对 这 些 表 的 查 
询 会 导致 MySQL 辣 存储 引 敬 请 求 获取 类 似 服务 器 上 表 的 索引 统计 等 数 
据 ， 而 这 在 ImnoDB 里 是 非常 繁重 的 。 

















这 些 视图 不 可 更 新 。 尽 管 你 可 以 从 中 检索 到 服务 器 设置 ， 但 不 能 
新 以 影响 服务 器 的 配置 ， 因 此 ， 仍 然 需 要 对 配置 使 用 SHOW 和 SET 命令 ， 
尽管 INFORMAT1ION_SCHEMA 视 图 对 其 他 任务 非常 有 用 。 


InnoDB 


在 MySQL 5.1 和 更 新 版 本 中 ，InnoDB 插 件 创 建 了 许多 的 
INFORMAT1ION_SCHEMA 表 。 这 些 表 非常 有 用 。 在 MySQL 5.5 中 有 更 多 这 样 
的 表 ， 而 还 未 发 行 的 MySQL 5.6 中 则 还 要 多 。 








在 MySQL 5.1 中 ， 存 在 如 下 一 些 表 。 
INNODB_CMP 和 1NNODB CMP_RESET 


这 些 表 显示 了 InnoDB 中 以 新 文件 格式 Barracuda 压 缩 的 数据 的 
相关 信息 。 第 二 个 表 显 示 的 信息 与 第 一 个 表 相 同 ， 但 具有 重 置 所 包 
含 数据 的 副作用 ， 好 像 使 用 FLUSH 命 令 那 样 。 




















INNODB_CMPMEM%#2 I NNODB_CMPMEM_RESET 





这 些 表 显示 了 用 于 InnoDB 压 缩 数 据 的 缓冲 池 中 页 的 信息 。 第 
二 个 表 又 是 一 个 重 置 表 。 


INNODB_TRX 和 1NNODB_LOCKS 


这 些 表 显示 了 事务 ， 拥 有 和 等 竺 锁 的 事务 。 它 们 对 于 诊断 锁 等 
竺 问题 和 长 时 间 运 行 的 事务 非常 重要 。MySQL 用 户 手 册 上 包含 了 
查询 样 例 ， 你 可 以 直接 复制 、 粘 贴 来 显示 哪 一 些 事 务 在 阻塞 其 他 事 
务 ， 它 们 正在 运行 的 查询 ， 等 等 。 














除了 这 些 表 ，MVySQ1 5.5 还 增加 了 1NNODB_LOCK_WAITS， 它 可 以 帮助 
更 容易 地 诊断 更 多 类 型 的 锁 等 待 问 题 。MySQL 5.6 中 将 会 增加 显示 关于 
InnoDB 内 部 更 多 信息 (包括 缓冲 池 和 数据 字典 ) 的 表 ， 以 及 称 





为 INNODB_METR1CS 的 新 表 ， 它 将 是 使 用 Performance Schemah #4077 


案 。 


Percona Server 中 的 表 


Percona Server 问 INFORMAT1ION_SCHEMA 库 中 增加 了 大 量 的 表 。 原 生 的 
MySQL 5.5 服 务 器 有 39 个 表 ， 而 Percona Server 5.5 有 61 个 表 。 以 下 是 关 
于 新 增 表 的 概述 。 





“用 户 统计 信息 ” 表 


这 些 表 源 于 Google 的 MySQL 补 本 。 它 们 显示 了 客户 端 、 索 
引 、 表 、 线 程 和 用 户 的 活动 统计 。 我 们 在 本 书 中 提 到 了 它们 的 使 
用 ， 例 如 确定 复制 何 时 开始 接近 追赶 上 主 库 的 能 力 极 限 。 


InnoDB 数 据 字 典 


一 系列 的 表 以 只 读 表 的 方式 暴露 了 InnoDB 内 部 数据 词典 : 
列 、 外 键 、 索 引 、 统 计 ， 等 等 。 它 们 对 从 InnoDB 角 度 检 测 和 理解 
数据 库 非常 有 帮助 ， 它 可 能 与 MySQL 不 同 ， 因 为 MySQL 依 赖 于 .frm 
文件 来 存储 数据 字典 。 类 似 的 表 在 MySQL 5.6 发 行 时 会 加 进来 。 


InnoDB 缓 冲 池 








这 些 表 使 你 可 以 像 表 一 样 查 询 缓冲 池 ， 表 中 每 个 页 是 一 行 ， 因 
此 ， 你 可 以 看 到 什么 页 驻 存 于 缓冲 池 中 ， 有 哪 种 类 型 的 页 ， 等 等 。 
这 些 表 已 被 证 实 对 于 诊断 类 似 膨 胀 的 插入 缓冲 非常 有 用 。 


临时 表 


这 些 表 显示 了 与 INFORMAT1ON_SCHEMA. TABLES 表 中 可 获取 的 类 
型 相同 的 信息 ， 只 是 用 临时 表 取 代 了 。 有 一 个 用 于 你 自身 会 话 的 临 
时 表 ， 还 有 一 个 用 于 整个 服务 器 中 的 所 有 临时 表 。 它 们 对 某 个 会 话 
获取 可 视 性 到 存在 的 临时 表 中 ， 以 及 它们 使 用 了 多 少 空间 。 





杂项 表 


有 少数 其 他 表 为 查询 执行 时 间 、 文 件 、 表 空间 和 更 多 InnoDB 
内 部 信息 增加 了 可 视 性 。 


关于 Percona Server 的 新 增 表 的 文档 可 以 
fEhttp://www.percona.com/doc/3k A - 


Performance Schema 


El MySQL 5.542, Performance Schema (寄存 于 
PERFORMANCE_SCHEMA 库 中 ) 是 MYSQL 增强 仪表 的 新 的 汇总 处 。 我 们 在 
第 3 章 中 已 讨论 过 一 点 。 





默认 情况 下 ，Performance Schema 是 禁 掉 的 ， 你 必须 打开 并 且 使 其 
在 一 个 想 要 收集 的 特定 的 仪表 点 〈“ 消 费 者 ”) 局 用。 我 们 对 服务 器 以 几 
个 不 同 的 配置 做 了 基准 测试 ， 发 现 即 使 Performance Schema 没有 数据 可 
采集 也 会 导致 8% 一 11%% 的 开销 ， 并 且 所 有 消费 都 生效 的 话 会 有 19% 一 
25% 的 开销 ， 具 体 取 决 于 是 一 个 只 读 还 是 读 / 写 的 负载 。 这 算 少 还 是 多 
由 你 来 决定 。 











这 在 MySQL 5.6 中 将 改善 ， 特 别 是 当 特 性 本 身 生 效 但 所 有 仪表 点 都 
禁用 时 。 这 对 某 些 用 户 而 言 更 加 实用 ， 他 们 会 让 Performance Schema 生 
效 ， 但 直到 收集 信息 时 才 将 其 激活 。 








在 MySQL 5.5 中 ，Performance Schema 包含 了 指示 条 件 变量 、 互 斥 
体 、 读 / 写 锁 和 文件 MO 实例 的 表 。 还 有 指示 实例 上 的 等 待 信息 的 表 ， 而 
这 些 经 常 是 你 在 查询 时 首先 感 兴趣 的 ， 以 及 与 其 实例 表 的 联接 。 这 些 事 
件 等 待 表 有 几 种 变 体 ， 拥 有 关于 服务 器 性 能 和 行为 的 当前 和 历史 信息 。 
最 后 ， 还 有 一 组 “设置 表 *， 你 可 以 用 这 些 表 来 使 预想 的 消费 者 生效 或 失 
效 。 














在 MySQL 5.6.3 开 发 里 程 碑 的 第 6 个 发 行 中 ，Performance Schema 中 
的 家 数 从 17 册 长 到 49。 这 意味 着 MySQL 5.6 中 有 许多 的 仪表 ! 增加 的 
仪表 涵盖 SQL 语 句 、 语 句 过 程 (基本 上 与 你 在 SHOW PROCESSL1ST 中 看 到 





的 线程 状态 相同 ) . K RG]. TEDL. ARR. AUP. US, DR AS 
述 及 历史 表 等 。 


你 如 何 使 用 这 些 表 ? 有 49 个 表 ， 得 让 某 些 人 为 此 写 些 工具 来 帮助 大 
家 了 。 然 而 ， 对 于 与 Performance Schema 表 相 对 应 的 早期 流行 的 非常 不 
错 的 SQL 例子 ， 可 以 阅读 Oracle 工 程 师 Mark Leith 的 博客 上 的 一 些 文章 ， 
例如 http:/www.markleith.co.uk/?p=471。 


py ot 


JCD = 





MySQL28 Fe IRS 45 A ABE EN A ED ESHON A, (AIK FEC 

变 。 在 MySQL 5.1 中 引入 的 可 播 拔 的 INFORMATION_SCHEMA 表 人 允许 InnoDB 
插件 增加 一 些 非常 有 意义 的 仪表 ， 而 Percona Server 增 加 的 要 多 得 多 。 然 
而 ， 读 取 SHOW ENGINE INNODB STATUS 输出 并 解释 的 能 力 对 管理 ImoDB 
仍然 是 至 关 重 要 的 。 在 MySQL ”5.5 和 更 新 的 服务 器 版 本 中 ， 可 以 使 用 
Performance Schema, a i a me 
方式 。Performance Schema 最 棒 的 一 点 在 于 它 是 基于 时 间 的 ， 这 意味 着 
MySQL 最 终 可 以 获取 已 经 逝去 时 间 里 的 仪表 盘 ， 而 不 仅仅 是 已 操作 的 
次 数 。 




















(1) 有 个 问题 需要 说 明 : 如 果 在 一 个 新 版 服务 器 上 使 用 老 版 的 mysqladmin， 它 前 两 列 是 自 服 
务 器 启动 后 的 值 ， 最 后 两 列 是 自 上 次 刷新 后 的 值 〈 在 本 例 中 是 10s 之 前 〉。 百 分 比 是 与 打印 输出 
中 显示 的 总 值 相 比 较 ， 而 不 是 与 所 有 查询 的 总 值 相 比 。 


(2) 最 早 在 http://code.openark.org/blog/mysql/mysql-global-status-difference-using-single-query 
上 发 表 。 

(3) 在 MySQL 5.1 中 ， 这 个 变量 被 分 解 成 Questions 和 Queries， 两 者 有 轻微 区 别 。 

(4) 在 MySQL 5.1 中 增强 了 等 待 数组， 使 其 更 为 高 效 。 

(5) 这 是 在 不 指定 主键 时 InnoDB 内 部 创建 的 索引 。 


















































附录 C ”大 文件 传输 


在 管理 MySQL、 初 始 化 服务 器 、 克 隆 复 制 和 进行 备份 /还 原 操作 
时 ， 复 制 、 压 纵 和 解压 缩 大 文件 《第 利 是 路 网 络 的 ) 是 很 常见 的 任务 。 
能 够 最 快 最 好 完成 这 些 任务 的 方法 并 不 总 是 显而易见 的 ， 并 且 方 法 好 坏 
的 兰 异 可 能 非常 显著 。 这 个 附录 将 通过 几 个 例子 演示 使 用 种 见 的 UNIX 
实用 工具 ， 将 一 个 大 尺寸 的 备份 镜像 从 一 台 服 务 器 复制 到 其 他 服务 器 。 








通 第 从 未 压缩 的 文件 开始 ， 例 如 一 台 服 务 费 上 的 InnoDB 表 空 间 和 
日 志文 件 。 当 然 ， 在 把 文件 复制 到 目的 地 之 后 要 再 将 它 解 压缩 。 另 外 一 
个 常见 的 场景 是 以 压 迪 文 件 开 始 ， 例 如 备份 镜像 文件 ， 以 解压 文件 结 
Wo 





如 果 网 络 传输 能 力 有 限 ， 那 么 用 压缩 格式 在 网 络 间 发 送 文 件 是 个 好 
方法 。 你 可 能 还 需要 一 个 安全 的 传输 途径 ， 使 数据 不 会 被 损坏 ， 这 对 于 
备份 锐 像 文件 来 说 ， 是 一 个 很 常见 的 需求 。 


复制 文件 
这 个 任务 实际 上 就 是 完成 以 下 事情 。 


1. (可 选 ) 压缩 数据 。 

2. 发 送 到 另外 一 台 机 器 上 。 

3. 把 数据 解压 缩 到 最 终 目的 地 。 

4. 在 复制 完成 后 ， 校 验 文件 以 确认 其 没有 被 损坏 。 


我 们 对 能 达成 这 些 目 标的 一 系列 方法 进行 了 基准 测试 。 本 附录 的 余 
下 部 分 将 展示 我 们 是 怎么 做 的 ， 以 及 我 们 找到 的 最 快速 的 方法 是 什么 。 


对 于 在 本 书 里 讨论 过 的 很 多 目的 ， 例 如 备份 ， 你 可 能 要 考虑 在 哪 一 
台 机 器 上 做 压缩 会 更 好 一 点 。 如 果 有 足够 的 网 络 带宽 ， 还 是 复制 未 压缩 
形式 的 备份 镜像 文件 为 好 ， 这 样 可 以 在 MySQL 服务 器 上 节省 出 CPU 资 
源 供 查 询 使 用 。 


一 个 简单 的 示例 


我 们 以 一 个 简单 的 示例 开始 ， 安 全 地 将 一 个 未 压缩 的 文件 从 一 台 机 
器 发 送 到 另外 一 台 上 ， 途 中 将 它 进行 压缩 ， 然 后 再 解压 。 在 称 
为 server1 的 源 服务 器 上 ， 执 行 如 下 命令 。 


server1$ gzip -c /backup/mydb/mytable.MYD > mytable.MYD.gz 


server1$ scp mytable.MYD.gz root@server2:/var/1lib/myql/my 


然后 ， 在 server2 上 执行 如 下 命令 。 


server2$ gunzip /var/1lib/mysql/mydb/mytable.MYD.gz 


这 大 概 是 最 简单 的 实现 方法 了 ， 但 效率 并 不 高 ， 因 为 涉及 压缩 、 复 
制 和 解压 缩 等 串 行 化 的 步骤 。 每 一 个 步 又 都 需要 读 / 写 磁盘 ， 速 度 比较 





慢 。 上 述 命令 的 真正 操作 依次 是 这 样 的 :在 server1 上 gzip 既 要 读 又 要 
写 ，scp 在 server1 上 读 而 在 server2 上 写 ; gunzip 在 server2 上 既 要 读 又 
下 和 
安 与 。 


一 步 到 位 的 方法 


下 面 这 个 方法 更 有 效率 一 些 ， 它 将 压缩 、 复 制 文件 和 在 传输 的 另 一 
端 解压 缩 文 件 全 部 放 在 一 个 步骤 里 完成 。 这 一 次 我 们 使 用 SSH，SCP 惑 
是 基于 这 个 安全 协议 的 。 下 面 是 在 server1 上 执行 的 命令 。 








Server1$ gzip -c /backup/mydb/mytable.MYD | ssh root@server2" 
>/mysql/mydb/mytable.MYD 


这 个 方法 通常 比 第 一 个 方法 好 ， 因 为 它 极 大 地 降低 了 人 磁盘 WO: B 
盘活 动 被 减少 到 只 要 在 server1 上 读 ， 在 server2 上 写 。 这 也 使 得 磁盘 操 
VEE DIVA FF 





也 可 以 使 用 SSH 内 建 的 压缩 来 完成 ， 但 是 我 们 展示 的 是 用 管道 来 做 
压 绽 和 解压 缩 ， 这 是 因为 这 样 能 给 予 你 更 大 的 灵活 性 。 例 如 ， 假 如 你 不 
想 在 另 一 端 解 压缩 文件 ， 就 无 法 使 用 SSH 的 压缩 。 


可 以 通过 调整 一 些 选项 来 提高 这 个 方法 的 效率 ， 例 如 给 gzip 增 加 选 


D-1, TEFL AAS ER. ASE NS PIR RAR, 7 EM 
显 提高 压缩 速度 ， 这 才 是 重点 。 你 也 可 以 使 用 不 同 的 压缩 算法 。 例 如 ， 
如 果 想 获得 很 蝇 的 压缩 率 ， 又 不在乎 会 花费 多 少时 间 ， 那 么 ， 就 可 以 使 
用 bzip2 来 代 蔡 gzip。 如 宁 想 要 非常 快 的 压缩 速度 ， 可 以 使 用 基于 LZO 的 
压缩 程序 。 这 样 压缩 后 的 数据 会 比 其 他 方法 的 结果 大 202% 左 右 ， 但 是 压 
缩 的 速度 约 快 5 倍 。 


避免 加 答 的 系统 开销 
5SH 不 是 里 风 传输 数据 的 最 快 方法 ， 因 为 它 增 加 了 加 解密 的 系统 开 


销 。 如 采 不 需要 加 密 ， 那 如 使 用 netcat 把 “ 裸 ” 数 据 进 行路 网 复制 。 可 以 
通过 nc 以 非 交 互 式 操作 方式 调用 这 个 工具 ， 这 正 是 我 们 想 要 的 。 














这 里 有 一 个 例子 。 首 先 ， 在 server2 上 监听 12345 端 口 (任何 闲置 的 
端口 都 可 以 ) 上 的 文件 ， 把 任何 发 送 到 该 端口 的 东西 都 解压 缩 到 期 望 的 
数据 文件 里 。 


server2$ nc -l -p 12345 | gunzip -c - > /var/1ib/mysql/mydb/m 


然后 在 server1 上 ， 开 局 另 一 个 netcat 实 例 ， 发 送 数据 到 目的 服务 器 
监听 的 端口 上 。-9q 选 项 告诉 netcat 当 到 达 输 入 文件 的 末尾 后 就 关闭 连 
接 。 这 会 触发 监听 实例 关闭 接收 的 文件 并 退出 。 


Server1$ gzip -c - /var/lib/mysql/mydb/mytable.MYD | nc -q 1 


AR a BOR ce Bitar, ROPE SCPE AA PR tH RINER SH M 
而 消除 了 男 一 个 错误 的 来 源 ， 并 会 目 动 将 文件 写 到 正确 的 位 置 。z 选 项 
告诉 tar 使 用 gzip 做 压缩 和 解压 缩 。 下 面 是 在 server2 上 执行 的 命令 。 


server2$ nc -1 -p 12345 | tar xvzf - 
以 下 是 在 server1 上 执行 的 命令 。 
Server1$ tar cvzf - /var/lib/mysql/mydb/mytable.MYD | nc -q 1 


RE PASE HE as & RRA — SBF HAAS HF As $e PS il] A 
I SCPE RA Ee HY LR oe EE, PAS EA st fs AR o 


其 他 选项 


另外 一 个 选择 是 rsync。rsync 非 党 简便 ， 因 为 它 易 于 在 源 和 目标 之 
间 做 镜像 ， 并 且 还 可 以 断 点 续 传 。 但 是 ， 当 它 的 二 进 制 差异 算法 无 法 被 
很 好 地 发 挥 时 ， 它 不 太 会 得 到 很 好 应 用 。 在 知道 文件 中 的 大 部 分 内 容 都 
不 需要 传输 的 场景 下 ， 例 如 ， 如 果 要 续 传 一 个 中 途 退 出 的 nc 复制 的 任 
务 ， 就 可 以 考虑 用 它 。 


在 还 没有 处 于 危急 关头 时 惑 应 该 针对 文件 传输 做 一 些 实验 ， 因 为 发 
现 哪 一 种 方法 最 快 可 能 要 做 许多 试验 和 遇 到 许多 错误 。 哪 一 种 方法 最 快 
取 雇 于 你 的 系统 。 其 中 最 大 的 影响 因素 是 服务 器 上 的 人 磁盘 驱动 右 、 网 卡 
和 CPU 的 数量 ， 以 及 它们 之 间 相 对 的 速度 有 多 快 。 有 个 不 错 的 方法 是 监 
控 vmstat -n5, A Watt EQCPUse ETRE HR 











如 果 有 闲置 的 CPU， 就 可 能 通过 运行 并 行 复制 操作 来 加 快 整个 过 
程 。 相 反 ， 如 果 CPU 已 经 是 瓶 贷 ， 而 磁盘 和 网 络 的 承载 能 力 还 比较 充 
裕 ， 那 就 可 以 不 压缩 。 在 导出 和 还 原 时 ， 出 于 速度 的 考虑 ， 并 行 执 行 这 
些 操作 往往 是 个 不 错 的 主意 。 此 外 ， 监 控 服 务 器 性 能 ， 看 看 是 售 还 有 朵 
置 的 承载 能 力 。 过 度 的 并 行 反 而 会 降低 处 理 速度 。 





文件 复制 的 基准 测试 


为 了 便于 比较 ， 表 C-1 显 示 的 是 在 局 域 网 里 通过 一 块 标准 的 百 兆 以 
太 网 链 路 复制 一 个 样本 文件 能 达到 的 最 快速 度 。 这 个 文件 未 压缩 时 的 大 
小 是 738MB， 使 用 gzip 默 认 选 项 压缩 后 是 100MB 。 源 和 目的 机 器 都 有 充 
足 的 可 用 内 存 、CPU 资 源 和 磁盘 空间 ， 网 络 是 瓶颈 所 在 。 











表 C-1: 跨 网 复制 文件 的 基准 测试 





pa 时 | 间 Cs) 


rsync， 不 使 用 压缩 
scp， 不 使 用 压缩 
nc， 不 使 用 压缩 


7 


67 


rsync， 使 用 压缩 (-z) 63 


gzip, scp 和 gunzip 60(44+10+6) 
ssh, EH JEH 44 


nc， 使 用 压缩 4 





注意 通过 网 络 用 送 文 件 时 压 给 有 多 大 的 帮助 一 一 最 慢 的 三 个 方法 并 
没有 压缩 文件 。 尽 管 这 样 ， 好 处 也 不 一 。 如 条 CPU 和 磁盘 慢 但 有 一 个 干 
兆 以 太 网 连接 ， 那 么 读 取 和 压缩 文件 可 能 是 瓶 贷 ， 不 压缩 反而 更 快 。 





顺便 提 一 下 ， 使 用 类 似 gzip --jost 的 快速 压缩 比 默认 压 缩 级 别 要 快 许 


多 ， 因 为 后 者 要 使 用 许多 的 CPU 时 间 来 对 文件 多 做 一 点 压缩 。 我 们 的 测 
试 基于 默认 压缩 级 别 。 














传输 文件 的 最 后 一 步 是 验证 复制 过 程 没有 损坏 文件 。 可 以 使 用 许多 
方法 ， 例 如 md5sum， 但 再 次 对 文件 做 完整 扫描 也 相当 昂贵 。 这 也 是 压 
缩 很 有 用 的 另外 一 个 原因 : 压缩 本 里 往往 包括 至 少 一 个 循环 见 余 检测 
CCRC) ， 而 它 应 该 能 发 现任 何 错误 ， 因 此 不 需要 做 错误 检测 。 





附录 D EXPLAIN 


这 个 附录 显示 了 如 何 调用 “EXPLAIN” 来 获取 关于 查询 执行 计划 的 信 
息 ， 以 及 如 何 解 释 输出 。EXPLAIN 命 令 是 查看 查询 优化 器 如 何 决定 执行 
查询 的 主要 方法 。 这 个 功能 有 局 限 性 ， 并 不 总 会 说 出 真相 ， 但 它 的 输出 
是 可 以 获取 的 最 好 信息 ， 值 得 花 时 间 了 解 ， 因 为 可 以 学 习 到 查询 是 如 何 
执行 的 。 学 会 解释 EXPLAIN 将 帮助 你 了 解 MySQL 优 化 器 是 如 何 工 作 的 。 





Vl FE EXPLAIN 


要 使 用 EXPLAIN， 只 需 在 查询 中 的 SELECT 关键 字 之 前 增加 EXPLAIN 这 
个 词 。MySQL 会 在 查询 上 设置 一 个 标记 。 当 执行 查询 时 ， 这 个 标记 会 
使 其 返回 关于 在 执行 计划 中 每 一 步 的 信息 ， 而 不 是 执行 它 。 它 会 返回 一 
行 或 多 行 信 息 ， 显 示 出 执行 计划 中 的 每 一 部 分 和 执行 的 次 序 。 











下 面 是 一 个 可 能 的 最 简单 的 EXPLAIN 结 


mysql> EXPLAIN SELECT 1\G 
FOI ICICI ICI IO IO III J, pow FI IO IO IO II IOI A I ak 
id: 1 
select_type: SIMPLE 
table: NULL 
type: NULL 
possible_keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: NULL 


Extra: No tables used 





在 查询 中 每 个 表 在 输出 中 只 有 一 行 。 如 果 查 询 是 两 个 表 的 联接 ， 那 
么 输出 中 将 有 两 行 。 别 名 表单 算 为 一 个 表 ， 因 此 ， 如 果 把 一 个 表 与 自己 
联接 ， 输 出 中 也 会 有 两 行 。“ 表 ”的 意义 在 这 里 相当 广 : 可 以 是 一 个 子 查 
询 ， 一 个 UNION 结 果 ， 等 等 。 稍 后 会 看 到 为 什么 是 这 样 。EXPLAIN 有 两 























个 主要 的 变种 。 


e EXPLAIN ”EXTENDED 看 起 来 和 正常 的 EXPLAIN 的 行为 一 样 ， 但 它 会 告 
诉 服务 器 “逆向 编译 ”执行 计划 为 一 个 SELECT 语 句 。 可 以 通过 紧 接 
其 后 运行 SHOW ”WARNINGS 看 到 这 个 生成 的 语句 。 这 个 语句 直接 来 自 
执行 计划 ， 而 不 是 原 SQL 语 句 ， 到 这 点 上 已 经 变 成 一 个 数据 结构 。 
在 大 部 分 场景 下 它 都 与 原 语句 不 相同 。 你 可 以 检测 查询 优化 器 到 底 
是 如 何 转化 语句 的 。EXPLAIN EXTENDED 在 MySQL 5.0 和 更 新 版 本 中 
aH, MySQL 5.1〈 稍 后 会 做 更 多 讨论 ) 额外 增加 了 一 
个 filtered 列 。 

EXPLAIN _ PARTITIONS 会 显示 查询 将 访问 的 分 区 ， 如 果 碍 询 是 基于 分 
区 表 的 话 。 它 只 在 MySQL 5.1 和 更 新 版 本 中 存在 。 








认为 增加 EXPLAIN 时 MySQL 不 会 执行 查询 ， 这 是 一 个 音 见 的 错误 。 
事实 上 ， 如 果 碍 询 在 FROM 子 句 中 包括 子 查 询 ， 那 么 MySQL 实 际 上 会 执 
行 子 查询 ， 将 其 结果 放 在 一 个 临时 表 中 ， 然 后 完成 外 层 查 询 优化 。 它 必 
须 在 可 以 完成 外 层 查 询 优化 之 前 处 理 所 有 类 似 的 子 查 询 ， 这 对 于 
EXPLAIN 来 说 是 必须 要 做 的 中。 这 意味 着 如 果 语 句 包 含 开销 较 大 的 子 查 
询 或 使 用 临时 表 算 法 的 视图 ， 实 际 上 会 给 服务 器 带 来 大 量 工 作 。 








要 意识 到 EXPLAIN 只 是 个 近似 结果 ， 别 无 其 他 。 有 时 候 它 是 一 个 很 
好 的 近似 ， 但 在 其 他 时 候 ， 可 能 与 真相 相差 其 远 。 以 下 是 一 些 相关 的 限 
制 |。 


。 EXPLAIN 根 本 不 会 告诉 你 触发 器 、 存 储 过 程 或 UDF 会 如 何 影响 查 
询 。 

。 它 并 不 支持 存储 过 程 ， 尽 管 可 以 手动 抽取 查询 并 单独 地 对 其 进 
行 EXPLAIN 操 作 。 


它 并 不 会 告诉 你 MySQL 在 查询 执行 中 所 做 的 特定 优化 。 

它 并 不 会 显示 关于 碍 询 的 执行 计划 的 所 有 信息 〈MySQL 开 发 者 会 

尽 可 能 增加 更 多 信息 ) 。 

它 并 不 区 分 具有 相同 名 字 的 事物 。 例 如 ， 它 对 内 存 排 序 和 临时 文件 
都 使 用 “filesort*， 并 且 对 于 磁盘 上 和 内 存 中 的 临时 表 都 显示 “Using 

temporary” 。 

可 能 会 误导 。 例 如 ， 它 会 对 一 个 有 着 很 小 LIMIT 的 查询 显示 全 索引 

扫描 。《〈MySQL ”5.1 的 EXPLAIN 关 于 检查 的 行 数 会 显示 更 精确 的 信 
恩 ， 但 早期 版 本 并 不 考 夸 LIMIT。 ) 











Æ = JESELECT# 1 


MySQL ”EXPLAIN 只 能 解释 SELECT 查询 ， 并 不 会 对 存储 程序 调用 和 
INSERT、UPDATE、DELETE 或 其 他 语句 做 解释 。 然 而 ， 你 可 以 重 写 某 些 
非 SELECT 碍 询 以 利用 EXPLAIN。 为 了 达到 这 个 目的 ， 只 需要 将 该 语句 转 
化 成 一 个 等 价 的 访问 所 有 相同 列 的 SELECT。 任 何 提 及 的 列 都 必须 
在 SELECT 列表 ， 关 联 子 句 ， 或 者 WHERE 子 句 中 。 


例如 ， 假 如 你 想 重 写 下 面 的 UPDATE 语 句 以 使 其 可 以 利用 EXPLAIN。 


UPDATE sakila.actor 
INNER JOIN sakila.film actor USING (actor_id) 


SET actor.last_update=film_actor.last_update; 


下 面 的 EXPLAIN 语 句 并 不 等 价 于 上 面 的 UPDATE， 因 为 它 并 不 要 求 服 
务 器 从 任何 一 个 表 上 获取 last_update 列 。 


mysql> EXPLAIN SELECT film_actor.actor_id 


-> FROM sakila.actor 


-> INNER JOIN sakila.film_actor USING (actor_id)\G 


FORO IOI IO IO TIO IO IO III J. 
id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 

Extra: 

FOI IOI IOI IO TIO IOI III 当 
id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 





火炎 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 
row 


1 
SIMPLE 
actor 
index 
PRIMARY 
PRIMARY 


200 

Using index 
TOW RA RARER RRR RK k 
1 

SIMPLE 

film_actor 

ref 

PRIMARY 

PRIMARY 

2 

sakila.actor.actor_id 


13 


Using index 


XS ALAR AS ER. PO, 4h 2 FR Se aS MySQL} (88 H A tint 


引 ， 但 是 ， 当 检索 并 更 新 last_updated 列 时 ， 就 无 法 使 用 覆盖 索引 了 。 
下 面 这 种 改写 法 就 更 接近 原来 的 语句 : 


mysql> EXPLAIN SELECT film_actor.last_update, actor.last_upda 


-> FROM sakila.actor 


-> INNER JOIN sakila.film_actor USING (actor_id)\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 类 1 row 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 


id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


1 
SIMPLE 
actor 
ALL 
PRIMARY 
NULL 
NULL 
NULL 
200 


类 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 2 row 火 火 火炎 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


SIMPLE 

film_actor 

ref 

PRIMARY 

PRIMARY 

2 
sakila.actor.actor_id 


13 





像 这 样 重 写 查询 并 不 非常 科学 ， 但 对 帮助 理解 查询 是 怎么 做 的 经 党 
已 足够 好 了 。 仿 








显示 计划 时 ， 对 于 写 查 询 并 没有 “等 价 ” 的 读 碍 询 ， 理 解 这 一 点 非常 
重要 。 一 个 SELECT 奋 询 只 需要 找到 数据 的 一 份 副 本 并 返回 。 而 任何 修 
改 数据 的 查询 必须 在 所 有 索引 上 得 找 并 修改 其 所 有 副本 。 这 常常 比 看 起 


二 
Fa 


来 等 价 的 SELECT 查询 的 消耗 要 高 得 多 。 








EXPLAIN # [4 


EXPLAIN 的 输出 总 是 有 相同 的 列 〈( 只 有 EXPLAIN EXTENDED 在 
MySQL ”5.1 中 增加 了 一 个 ftered 列 ，EXPLAIN ”PARTITIONS 增 加 了 一 
个 Partitions 列 ) 。 可 变 的 是 行 数 及 内 容 。 然 而 ， 为 了 保持 我 们 的 例子 
简洁 明了 ， 我 们 在 本 附录 中 不 总 是 显示 所 有 的 列 。 








在 接 下 来 的 小 节 中 ， 我 们 将 展示 在 EXPLAIN 结 果 中 每 一 列 的 意义 。 
记 住 ， 输 出 中 的 行 以 MySQL 实 际 执行 的 查询 部 分 的 顺序 出 现 ， 而 这 个 
顺序 不 总 是 与 其 在 原始 SQL 中 的 相 一 致 。 


id 列 


这 一 列 总 是 包含 一 个 编号 ， 标 识 SELECT 所 属 的 行 。 如 果 在 语句 当中 
没有 子 查 询 或 联合 ， 那 么 只 会 有 唯一 的 SELECT， 于 是 每 一 行 在 这 个 列 中 
都 将 显示 一 个 1。 和 否则 ， 内 层 的 SELECT 语句 一 般 会 顺序 编号 ， 对 应 于 其 
在 原始 语句 中 的 位 置 。 











MySQL 将 SELECT 查询 分 为 简单 和 复杂 类 型 ， 复 杂 类 型 可 分 成 三 大 
类 : 简单 子 查询 、 所 谓 的 派生 表 《〈 在 FROM 子 句 中 的 子 查询 ) ©, Wk 
UNION 查 询 。 下 面 是 一 个 简单 的 子 查 询 。 





mysql> EXPLAIN SELECT (SELECT 1 FROM sakila.actor LIMIT 1) FROM sakila.film; 
a +------- +... 
| id | select_type | table |... 
+----+------------- +------- Fus 
| 1 | PRIMARY | film |... 
| 2 | SUBQUERY | actor |... 
a +------- tee. 


FROM 子 句 中 的 子 查询 和 联合 给 id 列 增 加 了 更 多 复杂 性 。 下 面 是 一 个 
FROM 子 句 中 的 基本 子 查 询 。 


i EXPLAIN — film id (SELECT film id FROM sakila.film) AS der; 


| id | select type | table Iv 
+----+-------------+------------ +。 
| 1 | PRIMARY i <derived2> |.. 
| 2 | DERIVED | film = 


+----+------------- +------------ tone 


如 你 所 知 ， 这 个 查询 执行 时 有 一 个 匿名 临时 表 。MySQL 内 部 通过 
FA Cder) 在 外 层 查 询 中 引用 这 个 临时 表 ， 在 更 复杂 的 查询 中 可 以 看 
至 jref 列 |。 


最 后 ， 下 面 是 一 个 UN10N 查 询 。 


mysql> EXPLAIN SELECT 1 UNION ALL SELECT 1; 


十 =- 一 一 -十 -一 一 一 


| 1 | pi J ha. = 
| 2 | UNION | NULL |... 
| NULL | UNION RESULT | <union1,2> |... 
注意 UNION 结 果 输 出 中 的 额外 行 。UNION 结 果 总 是 放 在 一 个 匿名 临时 


表 中 ， 之 后 MySQL 将 结果 读 取 到 临时 表 外 。 I R 

现 ， 因 此 它 的 id 列 是 NULL。 与 之 前 的 例子 相 比 (演示 子 查 询 的 那个 FROM 

FAH) ， 从 这 个 查询 产生 的 临时 表 在 结果 中 出 现在 最 后 一 行 ， 而 不 是 
ATs 


到 目前 为 止 这 些 都 非常 直截了当 ， 但 这 三 类 语句 的 混合 则 会 使 输出 
变 得 非常 复杂 ， 我 们 稍 后 就 会 看 到 。 





select_type 列 


这 一 列 显 示 了 对 应 行 是 简单 还 是 复杂 SELECT〈 如 果 是 后 者 ， 那 么 是 
三 种 复杂 类 型 中 的 哪 一 种 ) 。SIWMPLE 值 意味 着 查询 不 包括 子 查询 和 
UNION。 如 果 碍 询 有 任何 复杂 的 子 部 分 ， 则 最 外 层 部 分 标记 为 PRIMARY， 
其 他 部 分 标记 如 下 。 








SUBQUERY 


包含 在 SELECT 列表 中 的 子 和 查询 中 的 SELECT 〈 换 句 话 说 ， 不 
在 FROM 子 句 中 ) 标记 为 SUBQUERY 。 


DER1VED 





DERIVED 值 用 来 表示 包含 在 FROM 子 句 的 子 查询 中 的 SELECT， 
MySQL 会 递归 执行 并 将 结果 放 到 一 个 临时 表 中 。 服 务 器 内 部 称 
其 “派生 表 ”， 因 为 该 临时 表 是 从 子 查询 中 派生 来 的 。 


UNION 


在 UNION 中 的 第 二 个 和 随后 的 SELECT 被 标记 为 UNION。 第 一 
个 SELECT 被 标记 就 好 像 它 以 部 分 外 查询 来 执行 。 这 就 是 之 前 的 例子 
中 在 UNION 中 的 第 一 个 SELECT 显示 为 PRIMARY 的 原因 。 如 果 UNION 被 
FROM 子 句 中 的 子 查询 包含 ， 那 么 它 的 第 一 个 SELECT 会 被 标记 
为 DERIVED。 


UNION RESULT 


用 来 从 UNION 的 匿名 临时 表 检 索 结 果 的 SELECT 被 标记 为 UNION 
RESULT. 


除了 这 些 值 ，SUBQUERY 和 UNION 还 可 以 被 标记 为 DEPENDENT 和 
UNCACHEABLE。DEPENDENT 意 味 着 SELECT 依赖 于 外 层 查 询 中 发 现 的 数 
据 ;，UNCACHEABLE 意 味 着 SELECT 中 的 某 些 特性 阻止 结果 被 缓存 于 一 
个 Item_cache 中 。 (Item cache 未 被 文档 记载 ， 它 ead 
事 ， 尽 管 它 可 以 被 一 些 相 同类 型 的 构件 否定 ， 例 如 RAND 0 函数 。 











table% 


这 一 列 显示 了 对 应 行 正在 访问 哪个 表 。 在 通常 情况 下 ， 它 相当 明 
T: 它 就 是 那个 表 ， 或 是 该 表 的 别名 如果 SQL 中 定义 了 别名 〉。 





可 以 在 这 一 列 中 从 上 往 下 观察 MySQL 的 关联 优化 器 为 查询 选择 的 
关联 顺序 。 例 如 ， 可 以 看 到 在 下 面 的 查询 中 MYSQL 选择 的 关联 顺序 不 
于 语句 中 所 指定 的 顺序 。 


mysql> EXPLAIN SELECT film.film_ id 
FROM sakila.film 
INNER JOIN sakila.film_actor USING(film_id) 
INNER — sakila. anter bepa id); 


+----+-------------+------------ 
| 1 | SIMPLE | actor [sis 
| 1 | SIMPLE | film_actor |.. 
| 1 | SIMPLE l film |... 
+----+-------------+------------ roe 


想起 我 们 在 第 6 章 中 展示 的 左 侧 深 度 优 先 〈left-deep) 树 了 吗 ? 
MySQL 的 查询 执行 计划 总 是 左 侧 深度 优先 树 。 如 果 把 这 个 计划 放 倒 ， 
就 能 按 顺 序 读 出 叶子 节点 ， 它 们 直接 对 应 于 EXPLAIN 中 的 行 。 之 前 的 
查询 计划 看 起 来 如 图 D-1 所 示 。 





| id | select type | table 


| 1 | SIMPLE actor 
| 1 | SIMPLE film actor 
| 1 | SIMPLE film 





图 D-1: 查询 执行 计划 与 EXPLAIN 中 的 行 相对 应 的 方式 


派生 表 和 联合 








当 FROM 子 句 中 有 子 查 询 或 有 UNION 时 ，table 列 会 变 得 复杂 得 多 。 在 
这 些 场景 下 ， 确 实 没 有 一 个 “ 表 ” 可 以 参考 到 ， 因 为 MySQL 创 建 的 匿名 临 
时 表 仅 在 查询 执行 过 程 中 存在 。 








当 在 FROM 子 句 中 有 子 查询 时 ，table 列 是 <derivedN> 的 形式 ， 其 中 N 
是 子 查 询 的 id。 这 总 是 “ 同 前 引用 ”一 一 换言之 ，N 指 同 EXPLAITN 输 出 中 后 
面 的 一 行 。 





当 有 UNION 时 ，UNION RESULT 的 table 列 包含 一 个 参与 UNION 的 id 列 
表 。 这 总 是 “向 后 引用 ”， 因 为 UNION “RESULT 出 现在 UNION 中 所 有 参与 行 
之 后 。 如 果 在 列表 中 有 超过 20 个 jd，table 列 可 能 被 截断 以 防止 太 长 ， 
此 时 不 可 能 看 到 所 有 的 值 。 笠 运 的 是 ， 仍 然 可 以 推测 包括 哪些 行 ， 因 为 
你 可 以 看 到 第 一 行 的 id。 在 这 一 行 和 UNION RESULT 之 间 出 现 的 一 切 都 会 
以 某 种 方式 被 包含 。 


一 个 复杂 SELECT 类 型 的 例子 


下 面 是 一 个 无 意义 的 查询 ， 我 们 这 里 把 它 用 作 茶 种 复杂 SELECT 类 


型 的 紧凑 示例 。 


EXPLAIN 
SELECT actor_id, 
(SELECT 1 FROM sakila.film_actor WHERE film_actor.actor_id 


der_1.actor_id LIMIT 1) 


1 

2 

3 

4 

5 FROM ( 
6 SELECT actor_id 

7 FROM sakila.actor LIMIT 5 

8 ) AS der 1 

9 UNION ALL 

10 SELECT film_id, 

11 (SELECT @vari FROM sakila.rental LIMIT 1) 
12 FROM ( 

13 SELECT film_id, 

14 (SELECT 1 FROM sakila.store LIMIT 1) 

15 FROM sakila.film LIMIT 5 


16 ) AS der_2; 





LIMIT 子 句 只 是 为 了 方便 起 见 ， 以 防 你 打算 不 以 EXPLAIN 方 式 执行 来 
看 结果 。 下 面 是 EXPLAIN 的 结 














+------ +---------------------- +------------ 玉 
id select_type table 
三 ea a a a Ei a R aem a anasi ie Seas acs: x 
1 PRIMARY <derived3> |... 
3 DERIVED actor jäs 
2 DEPENDENT SUBQUERY film actor |... 
4 UNION <derived6> |... 
6 DERIVED film 
7 SUBQUERY store 
5 UNCACHEABLE SUBQUERY | rental TE 
NULL | UNION RESULT <unioni,4> |... 


+------ +---------------------- +------------ inse 





PAN EERE EB oP ARR, DAE RY DA Sis Ia sel IT EE 


但 仍然 难以 解决 ! 从 最 上 面 开始 看 。 


第 1 行 回 前 引用 了 der_1， 这 个 查询 被 标记 为 <derived3>。 在 原 SQL 
中 是 第 2 行 。 想 了 解 输出 中 哪些 行 引 用 了 <derived3> 中 的 SELECT 
语句 ， 往 下 看 ..………. 

sak 第 2 行 ， 它 的 id 是 3。 因 为 它 是 查询 中 第 3 个 SELECT 的 一 部 分 ， 
归 为 DERIVED 类 型 是 因为 它 挫 套 在 FROM 子 句 中 的 子 查 询 内 部 。 在 原 
SQL 中 为 第 6 一 7 行 。 

第 3 行 的 id 为 2。 在 原 SQL 中 为 第 3 行 。 注 意 ， 它 在 具有 更 高 id 的 行 后 
面 ， 暗 示 后 面 再 执行 ， 这 是 合理 的 。 它 被 归 为 DEPENDENT 
SUBQUERY， 意 味 痢 其 结果 依赖 于 外 层 查 询 《〈 亦 即 某 个 相关 于 得 
询 )。 本 例 中 的 外 查询 是 从 第 2 行 开始 ， 从 der_1 中 检索 数据 的 
SELECT. 

第 4 行 被 归 为 UNION， 意 味 着 它 是 UNION 中 的 第 2 个 或 之 后 的 
SELECT。 它 的 表 为 <derived6>， 意 味 着 是 从 子 句 FROM 的 子 查 询 中 
检索 数据 并 附加 到 UNION 的 临时 表 。 像 之 前 一 样 ， 要 找到 显示 这 
个 子 查 询 的 查询 计划 的 EXPLAIN 行 ， 必 须 往 下 看 。 

第 5 行 是 在 原 SQL 中 第 13、14 和 15 行 定义 的 der_2 子 查询 ，EXPLAIN 
称 其 为 <der ived6>。 

第 6 行 是 <der ived6> 的 SELECT 列 表 中 的 一 个 普通 子 查 询 ， 它 的 id 为 
7， 这 非常 重要 .....…. 

ate 因为 它 比 5 大 ， 而 5 是 第 7 行 的 id。 为 什么 重要 ? 因为 它 显示 了 
<derived6> 子 查询 的 边界 。 当 EXPLAIN 输 出 SELECT 类 型 为 DERIVED 的 
一 行 时 ， 表 示 一 个 “ 舱 套 范围 ?开始 。 如 果 后 续 行 的 id 更 小 〈 本 例 
中 ，5 小 于 6) ， 意 味 着 髓 套 范 围 已 经 被 关闭 。 这 就 让 我 们 知道 第 7 
行 是 从 <derived6> 中 检索 数据 的 SELECT 列表 中 的 部 分 一 一 例如 ， 





























第 4 行 的 SELECT 列表 的 一 部 分 〈 原 SQL 中 第 11 行 ) 。 这 个 例子 相当 
容易 理解 ， 不 需要 知道 艇 套 范 围 的 意义 和 规则 ， 当 然 有 时 候 并 不 是 
这 么 容易 。 关 于 输出 中 的 这 一 行 男 外 一 个 要 注意 的 是 ， 因 为 有 用 户 
变量 ， 它 被 列 为 UNCACHEABLE SUBQUERY . 

最 后 一 行 是 UNION ” RESULT。 它 代表 从 UNION 的 临时 表 中 读 取 行 的 阶 
段 。 你 可 以 从 这 行 开始 反 过 来 癌 后 ， 如 果 你 愿意 的 话 。 它 会 返回 id 
是 1 和 4 的 行 结果 ， 它 们 分 别 引 用 了 <derived3> 和 <derived6>。 


如 你 所 见 ， 这 些 复杂 的 SELECT 类 型 的 组 合 会 使 EXPLAIN 的 输出 相当 
难 懂 。 理 解 规则 会 使 其 简单 些 ， 但 仍然 需要 多 实践 。 








阅读 EXPLAIN 的 输出 经 常 需 要 在 列表 中 跳 来 跳 去 。 例 如 ， 再 查看 第 
一 行 输出 。 仪 仅 盯 着 看 ， 是 无 法 知道 它 是 UNION 的 一 部 分 的 。 只 有 看 
到 最 后 一 行 你 才 会 明白 过 来 。 


type 列 


MySQL 用 户 手册 上 说 这 一 列 显示 了 “关联 类 型 ”， 但 我 们 认为 更 准确 
的 说 法 是 访问 类 型 一 一 换言之 就 是 MySQL 决 定 如 何 查 找 表 中 的 行 。 下 
面 是 最 重要 的 访问 方法 ， 依 次 从 最 差 到 最 优 。 








ALL 


人 们 所 称 的 全 表 扫 描 ， 通 常 意味 着 MySQL 必 须 扫 描 整 张 表 ， 
从 头 到 尾 ， 去 找到 需要 的 行 。〈 这 里 也 有 个 例外 ， 例 如 在 查询 里 使 
用 了 LIMIT， 或 者 在 Extra 列 中 显示 “Using distinct/not exists”. ) 


index 








IR -PERE AeA TE A ee MySQL AA MRAR I KP EAT 
而 不 是 行 。 它 的 主要 优点 是 避免 了 排序 ， 最 大 的 缺点 是 要 承担 按 索 
引 次 序 读 取 整 个 表 的 开销 。 这 通常 意味 独 咎 是 按 随 机 次 序 访问 行 ， 
开销 将 会 非常 大 。 








如 果 在 Extra 列 中 看 到 “Using index”， 说 明 MySQL 正 在 使 用 用 
盖 索 引 ， 它 只 扫 摘 索引 的 数据 ， 而 不 是 按 索 引 次 序 的 每 一 行 。 它 比 
FOR S| UR RATHI A AZ) RZ 














range 


范围 扫描 就 是 一 个 有 限制 的 索引 扫描 ， 它 开始 于 索引 里 的 某 一 
护 ， 返 回 匹 配 这 个 值 域 的 行 。 这 比 全 索引 扫描 好 一 些 ， 因 为 它 用 不 
AW ZR S| w M So IL HI Ye Fla fit xe Hr A BETWEEN GEWHERE F 
句 里 带 有 > 的 查询 。 





当 MySQL 使 用 索引 去 查找 一 系列 值 时 ， 例 如 INO 和 0R 列 表 ， 
也 会 显示 为 范围 扫描 。 然 而 ， 这 两 者 其 实 是 相当 不 同 的 访问 类 型 ， 
在 性 能 上 有 重要 的 差 寞 。 更 多 信息 可 以 但 看 第 5 章 的 文章 “什么 是 范 
HAR PP” 








此 类 扫描 的 开销 跟 索 引 类 型 相当 。 


ref 





re ZR S| le) CIN HY fi | EK), CREA MA 
菏 个 单个 值 的 行 。 然 而 ， 它 可 能 会 找到 多 个 符合 条 件 的 行 ， 因 此 ， 





Cre BMH. WER S| D AA SEHE TER | 
或 者 唯一 性 索引 的 非 唯 一 性 前 级 时 才 会 发 生 。 把 它 叫 做 ref 是 因为 

索引 要 跟 茶 个 参考 值 相 比 较 。 这 个 参考 值 或 者 是 一 个 常数 ， 或 者 是 
来 目 多 表 碍 询 前 一 个 表 里 的 结果 值 。 





ref_or_nul1 是 ref 之 上 的 一 个 变 体 ， 它 意味 着 MySQL 必须 在 
初次 查找 的 结果 里 进行 第 二 次 查找 以 找 出 NULL 条 目 。 


eq_ref 





使 用 这 种 索引 得 找 ，MySQL 知 道 最 多 只 返回 一 条 符合 条 件 的 
记录 。 这 种 访问 方法 可 以 在 MySQL 使 用 主键 或 者 唯一 性 索引 查找 
时 看 到 ， 它 会 将 它们 与 某 个 参考 值 做 比较 。MySQL 对 于 这 类 访问 
类 型 的 优化 做 得 非常 好 ， 因 为 它 知道 无 须 佑 计 匹 配 行 的 范围 或 在 找 
到 匹配 行 后 再 继续 查找 。 


const, system 





当 MySQL 能 对 查询 的 某 部 分 进行 优化 并 将 其 转换 成 一 个 常量 
时 ， 它 就 会 使 用 这 些 访问 类 型 。 举 例 来 次， 如果 你 通过 将 某 一 行 的 
主键 放 入 WHERE 子 句 里 的 方式 来 选取 此 行 的 主键 ，MySQL 就 能 把 这 
个 查询 转换 为 一 个 常量 。 然 后 就 可 以 高 效 地 将 表 从 联接 执行 中 移 
除 。 


NULL 





这 种 访问 方式 意味 着 MySQL 能 在 优化 阶段 分 解 碍 询 语 多， 在 
执行 阶段 甚至 用 不 着 再 访问 表 或 者 索引 。 例 如 ， 从 一 个 索引 列 里 选 
取 最 小 值 可 以 通过 单独 查找 索引 来 完成 ， 不 需要 在 执行 时 访问 表 。 








possibIe_keys 列 








这 一 列 显 示 了 会 询 可 以 使 用 哪些 索引 ， 这 是 基于 查询 访问 的 列 和 使 
用 的 比较 操作 符 来 判断 的 。 这 个 列表 是 在 优化 过 程 的 早期 创建 的 ， 因 此 
有 些 罗 列 出 来 的 索引 可 能 对 于 后 续 优 化 过 程 是 没 用 的 。 





key 列 


这 一 列 显示 了 MySQL 决定 采用 哪个 索引 来 优化 对 该 表 的 访问 。 如 
果 该 索引 没有 出 现在 possible_keys 列 中 ， 那 么 MySQL 选 用 它 是 出 于 另 
外 的 原因 一 -一例 如， 它 可 能 选择 了 一 个 覆盖 索引 ， 哪 怕 没 有 WHERE 子 
aie 


换 句 话说 ，possible_keys 揭 示 了 哪 一 个 索引 能 有 助 于 高 效 地 行 碍 
找 ， 而 key 显 示 的 是 优化 采用 哪 一 个 索引 可 以 最 小 化 查询 成 本 《更 多 详 
情 请 参阅 第 6 章 中 关于 优化 的 成 本 度量 值 ) 。 下 面 就 是 一 个 例子 。 











id: 1 
select_type: SIMPLE 
table: film_actor 
type: index 
possible_keys: NULL 
key: idx_fk_film_id 
key_len: 2 
ref: NULL 


rows: 5143 


Extra: Using index 


key_len# 


该 列 显示 了 MySQL 在 索引 里 使 用 的 字 节 数 。 如 果 MySQL 正 在 使 用 
的 只 是 索引 里 的 某 些 列 ， 那 么 就 可 以 用 这 个 值 来 算出 具体 是 哪些 列 。 要 
记 住 ，MySQL 5.5 及 之 前 版 本 只 能 使 用 索引 的 最 左前 级 。 举 例 来 
说 ，sakila.film_actor 的 主键 是 两 个 SMALLINT 列 ， 并 且 每 个 SMALLINT 
列 是 两 字 节 ， 那 么 索引 中 的 每 项 是 4 字 节 。 以 下 就 是 一 个 查询 的 示例 : 











mysql> EXPLAIN SELECT actor_id, film_id FROM sakila.film_actor WHERE actor_id=4; 
aetna ES SaaS Tenenan Foni 
...| type | possible keys | key | key_len |... 

st- == = +========-====== = +=======--= Feau 

...| ref | PRIMARY | PRIMARY | 

dis + 


基于 结果 中 的 key_len 列 ， 可 以 推 朵 出 查询 使 用 唯一 的 首 列 
actor_id 列 ， 来 执行 索引 查找 。 当 我 们 计算 列 的 使 用 情况 时 ， 务 必 
把 字符 列 中 的 字符 集 也 考虑 进去 。 


mysql> CREATE TABLE t ( 
-> a char(3) NOT NULL, 
-> b int(11) NOT NULL, 
c char(1) NOT NULL, 
-> PRIMARY KEY (a,b,c) 
-> ) ENGINE=MyISAM DEFAULT CHARSET=utf8 ; 
mysql> INSERT INTO t(a, b, c) 
=> SELECT DISTINCT LEFT(TABLE_SCHEMA, 3), ORD(TABLE_NAME), 
-> LEFT(COLUMN_NAME, 1) 
-> FROM INFORMATION SCHEMA.COLUMNS: 
mysql> EXPLAIN SELECT a FROM t WHERE a='sak' AND b = 112; 








.+------ +--------------- +--------- +--------- Pi 
...| type | possible keys | key | key_len |... 
,于 ------ f--------------- +--------- f+--------- Fee. 
...| ref | PRIMARY | PRIMARY | 13 Posse 
a 下 Pe 下 Foma 


这 个 查询 中 平均 长 度 为 13 字 节 ， 即 为 a 列 和 b 列 的 总 长 度 。a 列 是 3 个 








字符 ，utf8 下 每 一 个 最 多 为 3 字 节 ， 而 b 列 是 一 个 4 字 节 整 型 。 


MySQL 并 不 总 显示 一 个 索引 真正 使 用 了 多 少 。 例 如 ， 如 果 对 一 个 
前 缀 模式 匹配 执行 LIKE 碍 询 ， 它 会 显示 列 的 完全 宽度 正在 被 使 用 。 








key_len 列 显示 了 在 索引 字段 中 可 能 的 最 大 长 度 ， 而 不 是 表 中 数据 
使 用 的 实际 字 节 数 。 在 前 面 例子 中 MySQL 总 是 显示 13 字 节 ， 即 使 3 列 恰 
巧 只 包含 一 个 字符 长 度 。 换 言 之 ， key_len 通 过 查找 表 的 定义 而 被 计算 
出 ， 而 不 是 表 中 的 数据 。 


ref¥ 


这 一 列 显示 了 之 前 的 表 在 key 列 记录 的 索引 中 查找 值 所 用 的 列 或 党 
量 。 下 面 是 一 个 展示 关联 条 件 和 别名 组 合 的 例子 。 注 意 ，ref 列 反映 了 
在 碍 询 文 本 中 film 表 是 如 何以 { 为 别名 的 。 








mysql> EXPLAIN 
-> SELECT STRAIGHT JOIN f.film_id 
-> FROM sakila.film AS f 
-> INNER JOIN sakila.film_actor AS fa 
-> ON f.film id=fa.film id AND fa.actor id = 1 
-> INNER JOIN sakila.actor AS a USING(actor id); 
+ 


------- +... ae 
| table |... | key | key_len | ref ee 
...+------- +...+-------------------- +--------- +------------------------ Eesi 
axa |... | PRIMARY | 2 | const lssi 
cite || T |...| idx fk language id | 1 | N sess 
ssal fa |...| PRIMARY | 4 | const,sakila.f.film id |... 
ee S a anane nsan a ak 


rows || 


这 一 列 是 MySQL 估 计 为 了 找到 所 需 的 行 而 要 读 取 的 行 数 。 这 个 数 
字 是 内 骸 循 环 关 联 计 划 里 的 循环 数目 。 也 就 是 说 它 不 是 MySQL 认 为 它 





最 终 要 从 表 里 读 取出 来 的 行 数 ， 而 是 MySQL 为 了 找到 符合 查询 的 每 一 
点 上 标准 的 那些 行 而 必须 读 取 的 行 的 平均 数 。〔 这 个 标准 包括 SQL 里 给 
定 的 条 件 ， 以 及 来 自 联 接 次 序 上 前 一 个 表 的 当前 列 。) 

根据 表 的 统计 信息 和 索引 的 选用 情况 ， 这 个 估算 可 能 很 不 精确 。 在 
MySQL 5.0 及 更 早 的 版 本 里 ， 它 也 反映 不 出 LIMIT 子 句 。 举 例 来 说 ， 下 
面 这 个 查询 不 会 真 的 检查 1 022 行 。 


mysql> EXPLAIN SELECT * FROM sakila.film LIMIT 1\G 


rows: 1022 





通过 把 所 有 rows 列 的 值 相 乘 ， 可 以 粗略 地 估算 出 整个 查询 会 检查 的 
行 数 。 例 如 ， 以 下 这 个 查询 大 约会 检查 2 600 行 。 


mysql> EXPLAIN 
-> SELECT f.film id 
-> FROM sakila.film AS f 
INNER JOIN sakila.film actor AS fa USING(film_id) 
-> INNER JOIN sakila.actor AS a USING(actor id); 
ee se, 


1 1 O 
1 = Ye oS 
w 1G 


要 记 住 这 个 数字 是 MYSQL 认为 它 要 检查 的 行 数 ， 而 不 是 结果 集 里 
的 行 数 。 同 时 也 要 认识 到 有 很 多 优化 手段 ， 例 如 关联 缓冲 区 和 缓存 ， 无 
法 影响 到 行 数 的 显示 。MySQL 可 能 不 必 真 的 读 所 有 它 估计 到 的 行 ， 它 
也 不 知道 任何 关于 操作 系统 或 硬件 缓存 的 信息 。 





fiItered 询 


这 一 列 是 在 MySQL 5.1 里 新 加 进去 的 ， 在 使 用 EXPLAIN EXTENDED 时 
出 现 。 它 显示 的 是 针对 表 里 符合 某 个 条 件 (WHERE 子 句 或 联接 条 件 ) 的 
记录 数 的 百分比 所 做 的 一 个 悲观 估算 。 如 果 你 把 rows 列 和 这 个 百分比 相 
乘 ， 就 能 看 到 MySQL 估 算 它 将 和 查询 计划 里 前 一 个 表 关 联 的 行 数 。 在 
写作 本 书 的 时 候 ， 优 化 器 只 有 在 使 用 ALL、index、range 和 index_merge 
访问 方法 时 才 会 用 这 一 估算 。 


为 了 说 明 这 一 列 的 输出 形式 ， 我 们 创建 了 下 面 这 样 一 张 表 。 


CREATE TABLE t1 ( 
id INT NOT NULL AUTO_INCREMENT, 
filler char(200), 
PRIMARY KEY(id) 

) ; 


然后 ， 我 们 往 表 里 插入 1000 行 记录 ， 并 在 filler 列 里 随机 填充 一 些 
文字 。 它 的 用 途 是 防止 MySQL 在 我 们 将 要 运行 的 查询 里 使 用 履 盖 索 
引 。 





mysql> EXPLAIN EXTENDED SELECT * FROM t1 WHERE id < 500\G 
FOI IOI ICICI IOI IO ICI ICI II q. pow FRI IO IOI IR IA A A IR I 
id: 1 
select_type: SIMPLE 
table: t1 
type: ALL 
possible_keys: PRIMARY 
key: NULL 
key_len: NULL 


ref: NULL 
rows: 1000 
filtered: 49.40 


Extra: Using where 





MySQL 可 以 使 用 范围 访问 从 表 里 获 取 到 所 有 ID 不 超过 500 的 行 ， 但 
是 ， 它 没 这 么 做 ， 这 是 因为 那样 只 能 去 除 大 约 一 半 的 记录 ， 它 认为 全 表 
扫描 也 不 是 太 昂 贯 。 因 此 ， 它 使 用 了 全 表 扫 描 和 WHERE 子 句 来 过 滤 输 出 
行 。 它 知道 使 用 WHERE 子 句 可 以 从 结果 里 过 滤 掉 多 少 条 记录 ， 因 为 范围 
访问 的 成 本 是 可 以 估算 出 来 的 。 这 也 就 是 49.40% 出 现在 fi ltered 列 上 
的 原因 。 





Extra 列 


这 一 列 包含 的 是 不 适合 在 其 他 列 显 示 的 额外 信息 。MySQL 用 户 手 
册 里 记录 了 大 多 数 可 以 在 这 里 出 现 的 值 。 其 中 许多 在 本 书 中 己 经 提 到 


常见 的 最 重要 的 值 如 下 。 
“Using index” 


此 值 表示 MySQL 将 使 用 履 盖 索引 ， 以 避免 访问 表 。 不 要 把 履 
盖 索 引 和 index 访 问 类 型 弄 混 了 。 


“Using where” 





AARE MySQL HRA ne hh CE FF fie J] ERR ÍT Ja EAT WS 


许多 WHERE 条 件 里 涉及 索引 中 的 列 ， 当 《并 且 如 果 ) 它 读 取 索引 

时 ， 就 能 被 存储 引擎 检验 ， 因 此 不 是 所 有 融 WHERE 子 句 的 查询 都 会 
显示 “Using where”。 有 时 “Using where” 的 出 现 就 是 一 个 上 暗示: 查询 
可 受益 于 不 同 的 索引 。 


“Using temporary” 


这 意味 着 MySQL 在 对 查询 结果 排序 时 会 使 用 一 个 临时 表 。 





“Using filesort” 








这 意味 着 MySQL 会 对 结果 使 用 一 个 外 部 索引 排序 ， 而 不 是 按 
索引 次 序 从 表 里 读 取 行 。MySQL 有 两 种 文件 排序 算法 ， 你 可 以 在 
第 6 章 读 到 相关 内 容 。 两 种 方式 都 可 以 在 内 存 或 磁盘 上 完 
成 。EXPLAIN 不 会 告诉 你 MySQL 将 使 用 哪 一 种 文件 排序 ， 也 不 会 告 
诉 你 排序 会 在 内 存 里 还 是 磁盘 上 完成 。 











“Range checked for each record (index map: N)” 














这 个 值 意味 着 没有 好 用 的 索引 ， 新 的 索引 将 在 联接 的 每 一 行 上 
重新 估算 。N 是 显示 在 possible_keys 列 中 素 引 的 位 图 ， 并 且 是 元 余 
的 。 





树 形 格式 的 输出 


MySQL 用户 往 往 更 希望 把 EXPLAIN 的 输出 格式 化 成 一 棵 树 ， 更 加 精 
确 地 展示 执行 计划 。 实 际 上 ，EXPLAIN 查 看 查询 计划 的 方式 确实 有 点 第 
拙 ， 树 状 结构 也 不 适合 表格 化 的 输出 。 





当 Extra 列 里 有 大 量 的 值 时， 缺点 更 明显 ， 使 用 UNION 也 是 这 
样 。UNION 跟 MySQL 能 做 的 其 他 类 型 的 联接 不 太一 样 ， 它 不 太 适 
合 EXPLAIN。 





如 有 果 对 EXPLAITN 的 规则 和 特性 有 充分 的 了 解 ， 使 用 树 形 结构 的 执行 
计划 也 是 可 行 的 。 但 是 这 有 点 枯燥 ， 最 好 还 是 留 给 自动 化 的 工具 处 理 。 
Percona Toolkit 包 含 了 pt-visual-explain， 它 就 是 这 样 一 个 工具 。 


MySQL 5.6 中 的 改进 


MySQL 5.6 中 将 包括 一 个 对 EXPLAIN 的 重要 改进 ， 能 对 类 似 
UPDATE、1NSERT 等 的 查询 进行 解释 。 尽 管 可 以 将 DML 语 句 转 化 为 准 等 
价 的 “SELECT 查询 并 EXPLAIN， 但 结果 并 不 会 完全 反映 语句 是 如 何 执行 
的 ， 因 而 这 仍然 非常 有 帮助 。 在 开发 使 用 类 似 Percona Toolkit Hpt- 
upgrade 时 曾 尝 试 使 用 过 那个 技术 ， 我 们 不 止 一 次 发 现 ， 在 将 查询 转化 
为 SELECT 时 ， 优 化 器 并 不 能 按 我 们 预期 的 代码 路 径 执 行 。 因 而 ， 
EXPLAIN 一 个 查询 而 不 需要 转化 为 SELECT， 对 我 们 理解 执行 过 程 中 到 
底 发 生 什 么 ， 是 非常 有 帮助 的 。 











MySQL 5.6 还 将 包括 对 查询 优化 和 执行 引擎 的 一 系列 改进 ， 人 允许 匿 
名 的 临时 表 尽 可 能 晚 地 被 具体 化 ， 而 不 总 是 在 优化 和 执行 使 用 到 此 临时 
表 的 部 分 查询 时 创建 并 填 序 它们。 这 将 允许 MySQL 可 以 直接 解释 带子 
查询 的 查询 语句 ， 而 不 需要 先 实 际 地 执行 子 查 询 。 











最 后 ，MySQL 5.6 将 通过 在 服务 器 中 增加 优化 跟踪 功能 的 方式 改进 
优化 器 的 相关 部 分 。 这 将 允许 用 户 查 看 优化 器 做 出 的 抉择 ， 以 及 输入 
(例如 ， 索 引 的 基数 ) 和 抉择 的 原因 。 这 非常 有 帮助 ， 不 仅仅 对 理解 服 
务 器 选择 的 执行 计划 如 此 ， 对 为 什么 选择 这 个 计划 也 如 此 。 





(1) 这 个 限制 在 MySQL 5.6 中 将 被 取消 。 

(2) MySQL 5.6 将 允许 解释 非 SELECT 查 询 。 万 岁 ! 

(3) FROM 子 句 中 的 子 查 询 是 派生 表 ” 这 一 表述 是 对 的 ， 但 “派生 表 是 FROM 子 句 中 的 子 查 询 ” 则 
不 对 ， 术 语 “ 派 生 表 ”在 SQL 中 含义 很 宽泛 。 









































附录 E | FLAY Val iz 


任何 使 用 锁 来 控制 资源 共享 的 系统 ， 锁 的 苋 争 问题 都 不 好 调试 。 当 
我 们 给 东 个 表 增 加 一 列 新 字段 ， 或 者 只 是 进行 查询 ， 就 有 可 能 发 现 其 他 
请 求 锁 住 了 操作 的 表 或 者 行 。 此 时 ， 通 党 你 所 想 做 的 事 束 是 找 出 查询 阻 
徐 的 原因 ， 从 而 知道 该 杀 死 哪个 进程 。 这 个 附录 显示 了 如 何 达 到 这 两 个 
目标 。 





MySQL 服 务 器 本 身 使 用 了 几 种 类 型 的 锁 。 如 果 碍 询 正 在 等 待 一 个 
服务 器 级 别 的 锁 ， 那 么 可 以 在 SHOW _ PROCESSLIST 的 输出 中 看 到 蛛 丝 
马 迹 。 除 了 服务 器 级 别 的 锁 ， 任 何 文 持 行 级 别 锁 的 存储 引擎 ， 例 如 
InnoDB， 都 实现 了 自己 的 锁 。 在 MySQL 5.0 和 更 早 版 本 中 ， 服 务 器 层 无 
法 主动 识别 这 些 锁 ， 它 们 往往 对 用 户 和 数据 库 管理 员 不 可 见 。 在 
MySQL 5.1 和 后 续 版 本 中 可 见 性 有 了 提高 。 


AA es BC AID SEIT 


锁 等 待 可 能 发 生 在 服务 器 级 别 或 存储 引擎 级 别 。 中 《应 用 程序 级 别 
的 锁 可 能 也 是 一 个 问题 ， 但 我 们 在 此 只 关注 MySQL。) 下 面 是 MYSQL 
服务 器 使 用 的 几 种 类 型 的 锁 。 


KH 
表 可 以 被 显 式 的 读 锁 和 写 锁 进 行 锁 定 。 这 些 锁 有 许多 的 变种 ， 


例如 本 地 读 锁 。 你 可 以 在 MySQL 手 册 LOCK TABLES 部 分 了 解 到 这 些 
变种 。 除 了 这 些 显 式 的 锁 外 ， 查 询 过 程 中 还 有 隐 式 的 锁 。 


Ke 


局 锁 


可 以 通过 FLUSH TABLES WITH READ LOCK 或 设置 read_on1y=1 来 
获取 单个 全 局 读 锁 。 它 与 任何 表 锁 都 冲突 。 


N Ka S 


as) 


命名 锁 是 表 锁 的 一 种 ， 服 务 器 在 重 命名 或 删除 一 个 表 时 创建 。 


A 
Qr 

ay 
= 


你 可 以 用 GET_LOCK () 及 其 相关 函数 在 服务 器 级 别 内 锁 住 和 释放 
任意 一 个 字符 串 。 





在 接 下 来 的 章节 中 我 们 将 更 详细 地 碍 看 每 种 类 型 的 锁 。 


KM 


表 锁 既 可 以 是 显 式 的 也 可 以 是 隐 式 的 。 显 式 的 锁 用 LOCK TABLES® 


建 。 例 如 ， 如 果 在 mysql 会 话 中 执行 下 列 命 令 ， 将 在 sakila. film 上 获得 
一 个 显 式 的 锁 。 

mysql> LOCK TABLES sakila.film READ; 

OR FE ab St PIT OO Pa, Ae tee A ANS E 
成 。 


mysql> LOCK TABLES sakila.film WRITE; 


你 可 以 在 第 一 个 连接 中 看 到 等 竺 线程 。 


mysql> SHOW PROCESSLIST\G 
FOCI IO IO IO ICI ICI II J. poy RII I IR I RA A A IK Ik 
Id: 7 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 0 
State: NULL 
Info: SHOW PROCESSLIST 
FO IOI ICICI ICICI ICI III I 9. yy FRI IOI ICI A I IA A A IK 
Id: 11 


User: baron 


Host: localhost 
db: NULL 
Command: Query 
Time: 4 
State: Locked 
Info: LOCK TABLES sakila.film WRITE 


2 rows in set (0.01 sec) 


可 以 注意 到 线程 11 的 状态 是 Locked。 在 MySQL 服 务 器 代码 中 只 有 
一 个 线程 会 进入 此 状态 : 当 一 个 线程 持 有 该 锁 后 ， 其 他 线程 只 能 不 断 尝 
试 获取 。 因 而 ， 如 果 看 到 这 样 的 信息 ， 你 就 知道 线程 在 等 待 一 个 
MySQL 服 务 器 中 的 锁 ， 而 不 是 存储 引擎 的 。 


然而 ， 显 式 锁 并 不 是 阻塞 这 样 一 个 操作 的 唯一 类 型 的 锁 。 我 们 前 面 
也 提 到 ， 服 务 需 在 查询 过 程 中 会 隐 式 地 锁 住 表 。 用 一 个 长 时 间 运 行 的 查 
询 可 以 很 容易 地 展示 这 一 点 ， 长 时 间 碍 询 可 以 通过 SLEEP 0 函数 轻松 创 
建 。 











mysql> SELECT SLEEP(30) FROM sakila.film LIMIT 1; 


当 这 个 碍 询 运 行 时 ， 如 果 你 再 次 答 试 锁 saki la. film HESAR 
式 锁 而 挂 起 ， 就 如 同 有 显 式 锁 一 样 。 你 会 在 进程 列表 中 看 到 和 之 前 一 样 
的 效果 : 


mysql> SHOW PROCESSLIST\G 
类 类 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 炎炎 火炎 火炎 火 火 火炎 类 1. row 类 类 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 炎炎 炎炎 火 火 炎炎 火炎 
Id: 7 


User: baron 


Host: localhost 
db: NULL 
Command: Query 
Time: 12 
State: Sending data 
Info: SELECT SLEEP(30) FROM sakila.film LIMIT 1 
FO IOI ICICI ICI IO ICI III I 9. yy FRI IOI IR I A IA A A IK Ik 
Id: 11 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 9 
State: Locked 
Info: LOCK TABLES sakila.film WRITE 


在 本 例 中 ，SELECT 查 询 的 隐 式 读 锁 阻塞 了 LOCK TABLES 中 所 请 求 的 
显 式 写 锁 。 另 外 ， 隐 式 锁 也 会 相互 阻塞 。 


你 可 能 想 知道 关于 隐 式 锁 和 显 式 锁 的 差异 。 从 内 部 来 说 ， 它 们 有 相 
同 的 结构 ， 由 相同 的 MySQL 服 务 右 代码 来 控制 。 从 外 部 来 说 ， 你 可 以 
通过 LOCK TABLES 和 UNLOCK TABLES 来 控制 显 式 锁 。 


然而 ， 当 涉及 非 MyISAM 和 存储 引擎 时 ， 它 们 之 间 有 一 个 非常 重要 的 
区 别 。 当 创建 显 式 锁 时 ， 它 会 按 你 的 指令 来 做 ， 但 隐 式 锁 就 比较 隐 菩 
并 <*“ 有 魔 约 性 ”。 服 务 器 会 在 需要 时 自动 地 创建 和 释放 隐 式 锁 ， 并 将 它们 
传递 给 存储 引擎 。 存 储 引 擎 感知 到 后 ， 可 能 会 “转换 "这些 锁 。 例 如 ， 
InnoDB 有 这 样 的 相关 规则 : 对 一 个 给 定 的 服务 器 级 别 的 表 锁 ，InnoDB 


应 该 为 其 创建 特定 类 型 的 InnoDB 表 锁 。 这 也 使 得 操作 人 很 难 理解 
InnoDB 幕 后 到 底 做 了 什么 。 


找 出 谁 持 有 锁 





如 果 你 看 到 许多 的 进程 处 于 Locked 状 态 ， 问 题 可 能 出 在 对 MyISAM 
或 者 其 他 类 似 存 储 引 警 的 高 并 发 访问 。 这 会 阻止 你 执行 人 工 操作 ， 例 如 
给 表 增 加 索引 等 。 如 果 一 个 UPDATE 查 询 进 入 队列 并 等 待 MyISAM 的 表 
锁 ， 此 时 就 连 SELECT 也 不 会 被 允许 运行 。 关于 MySQL 锁 队列 和 优先 
级 ， 可 以 在 MySQL 用 户 手 册 中 查 到 更 多 。) 


在 茶 些 场景 下 ， 可 以 清楚 地 看 到 几 个 连接 长 时 间 持 有 茶 个 锁 ， 此 时 
再 要 将 它们 杀 死 〈 或 需要 劝告 用 户 不 要 阻挡 这 些 连接 的 工作 ! ) 。 但 是 
如 何 找 出 那个 连接 呢 ? 





目前 没有 SQL 命令 可 以 显示 哪个 线程 持 有 阻 蹇 你 的 得 询 的 表 锁 。 如 
果 运 行 SHOW PROCESSLIST， 你 会 看 到 等 待 锁 的 进程 ， 而 不 是 哪个 进程 持 
有 这 些 锁 。 竺 运 的 是 ， 有 一 个 debug 命 令 可 以 打印 关于 锁 的 信息 到 服务 
器 的 错误 日 志 中 ， 你 可 以 使 用 mysqladmin 工 具 来 运行 这 个 命令 : 





$ mysqladmin debug 


在 错误 日 志 的 输出 中 包括 了 许多 的 调试 信息 ， 在 接近 尾部 可 以 看 到 
像 下 面 的 一 些 信息 。 我 们 是 这 样 创建 这 些 输 出 的 ， 在 一 个 连接 中 锁 住 
表 ， 然 后 在 男 外 一 个 连接 中 尝试 再 次 对 它 加 锁 。 





Thread database.table_name Locked/Waiting Lock_type 


7 sakila. film Locked - read Read lock without 


8 sakila.film Waiting - write Highest priority w 


可 以 看 到 线程 8 正在 等 待 线程 7 持 有 的 锁 。 


全 局 读 锁 


MySQL 服 务 器 还 实现 了 一 个 全 局 读 锁 ， 可 以 如 下 获取 该 锁 。 





mysql> FLUSH TABLES WITH READ LOCK; 


如 果 此 时 在 另外 一 个 会 话 中 尝试 再 锁 这 个 表 ， 结 琳 会 像 之 前 一 样 挂 
起 。 


mysql> LOCK TABLES sakila.film WRITE 


如 何 判断 这 个 查询 正在 等 待 全 局 读 锁 而 不 是 一 个 表 级 别 的 锁 ?” 请 
看 SHOW PROCESSL1ST 的 输出 。 


mysql> SHOW PROCESSLIST\G 


火炎 火炎 火炎 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 2 row 火炎 火炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


Id: 22 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 9 


State: Waiting for release of readlock 


Info: LOCK TABLES sakila.film WRITE 





注意 ， 查 询 的 状态 是 Waiting for release of readlock。 这 就 是 
说 查询 正在 等 待 一 个 全 局 读 锁 而 不 是 表 级 别 锁 。 


MySQL 没 有 提供 查 出 谁 持 有 全 局 读 锁 的 方法 。 
命名 锁 


命名 锁 是 一 种 表 锁 : 服务 器 在 重 命名 或 删除 一 个 表 时 创建 。 命 名 锁 
与 普通 的 表 锁 相 冲 突 ， 无 论 是 隐 式 的 还 是 显 式 的 。 例 如 ， 如 果 和 之 前 一 
样 使 用 LOCK ”TABLES， 然 后 在 力 外 一 个 会 话 中 尝试 对 此 表 重 命名 ， 查 询 
会 挂 起 ， 但 这 次 不 是 处 于 Locked 状 态 。 





mysql> RENAME TABLE sakila.film2 TO sakila. film; 


和 前 面 一 样 ， 从 进程 列表 找到 获得 锁 的 进程 ， 其 状态 是 Waiting 
for table。 


mysql> SHOW PROCESSLIST\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 2 row 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


Id: 27 
User: baron 
Host: localhost 
db: NULL 
Command: Query 


Time: 3 


State: Waiting for table 


Info: rename table sakila.film to sakila.film 2 


也 可 以 在 SHOW OPEN TABLES 输 出 中 看 到 命名 锁 的 影响 。 


----------+-----------+-------- +-------------+ 
| Database | Table | In_use | Name locked | 
+---------- +----------- +-------- +------------- 十 
| sakila | film text | 3 | 0 | 
| sakila | film | 2 | a | 
| sakila | film2 | g | T | 
+----------+----------- +-------- +------------- + 


+ 
3 rows in set (0.00 sec) 


注意 ， 两 个 名 字 《 原 名 和 新 名 ) 都 被 锁 住 了 。sakila.film_text 因 
sakila.film 上 有 个 指向 它 的 触发 器 而 被 锁 ， 这 也 解释 了 另外 一 种 锁 方 
式 ， 它 们 可 以 暗地里 将 自己 放置 到 预期 之 外 的 地 方 。 查 询 
sakila. film， 触 发 器 会 使 你 悄悄 地 接触 sakila. film_text， 因 而 隐 式 
地 锁 住 它 。 触 发 器 实际 不 需要 因 重 命名 触发 ， 确 实 如 此 ， 因 此 从 技术 上 
讲 并 不 需要 锁 ， 但 事实 是 : MySQL 的 锁 有 时 可 能 并 不 具有 你 所 期 望 的 
细 粒 度 。 











MySQL 并 没有 提供 任何 一 种 方法 来 得 明 谁 拥有 命名 锁 ， 但 这 通 芝 
并 不 是 问题 ， 因 为 它们 一 般 持 有 非常 短 的 一 段 时 间 。 当 有 冲突 时 ， 一 般 
是 由 于 命名 锁 在 等 待 一 个 普通 的 表 锁 ， 而 这 通过 先前 展示 的 mysqladmin 
debug 可 以 看 到 。 


HP Bit 


在 服务 器 中 实现 的 最 后 一 种 锁 是 用 户 锁 ， 它 基本 是 一 个 命名 互 斥 
量 。 你 需要 指定 锁 的 名 称 字 符 串 ， 以 及 等 等 超 时 秒 数 。 





m 
ES 
| GET_LOCK('my lock', 100) 


1 row in set (0.00 sec) 





HOM, SEM TE ar 4 Bee ERA SE. WRA 
外 一 个 线程 此 时 尝试 锁 相同 的 字符 串 ， 它 将 会 挂 起 直到 超时 。 这 次 进程 
列表 显示 了 一 个 不 同 的 进程 状态 。 


mysql> SHOW PROCESSLIST\G 
FOO ICICI CII IO IO ICI ICICI IO q. pow RII IR RA A A A IK Ik 
Id: 22 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 9 
State: User lock 


Info: SELECT GET_LOCK('my lock', 100) 


User lock 状 态 是 这 种 类 型 的 锁 独 有 的 。MySQL 没 有 提供 查 明 谁 拥 
有 用 户 锁 的 方法 。 


InnoDB # HY) ai 


服务 器 级 的 锁 要 比 存储 引擎 中 的 锁 容易 调试 得 多 。 各 个 存储 引擎 的 
锁 互 不 相同 ， 并 且 存 储 引 擎 可 能 不 提供 任何 方法 来 查看 内 部 的 锁 。 本 附 
录 主 要 关注 InnoDB。 





InnoDB 在 SHOW INNODB STATUS 的 输出 中 显露 了 一 些 锁 信息 。 如 果 
事务 正在 等 待 某 个 锁 ， 这 个 锁 会 显示 在 SHOW INNODB ”STATUS 输 出 的 
TRANSACT10NS 部 分 中 。 例 如 ， 如 采 在 一 个 会 话 中 执行 下 面 的 命令 ， 将 需 
要 表 中 第 一 行 的 写 锁 。 


mysql> SET AUTOCOMMIT=0; 
mysql> BEGIN; 


mysql> SELECT film_id FROM sakila.film LIMIT 1 FOR UPDATE; 


如 果 在 另外 一 个 会 话 中 运行 相同 的 命令 ， 查 询 将 会 因 第 一 个 会 话 中 
在 那 一 行 获取 的 锁 而 阻塞 。 可 以 在 SHOW INNODB STATUS 中 看 到 影响 (为 
了 简洁 起 见 我 们 对 结果 有 所 删 减 〉。 











1 LOCK WAIT 2 lock struct(s), heap size 1216 

2 MySQL thread id 8, query id 89 localhost baron Sending data 
3 SELECT film id FROM sakila.film LIMIT 1 FOR UPDATE 

4 ------- TRX HAS BEEN WAITING 9 SEC FOR THIS LOCK TO BE GRAN 
5 RECORD LOCKS space id 0 page no 194 n bits 1072 index `idx_ 


‘sakila/film trx id © 61714 lock_mode X waiting 





最 后 一 行 显示 查询 在 等 待 该 表 的 idx_fk_1anguage_id 索 引 的 194 页 


上 一 个 排他 锁 Clock_mode X) 。 最 终 ， 锁 等 待 超 时 ， 查 询 返回 一 个 错 
误 。 


ERROR 1205 (HY000): Lock wait timeout exceeded; try restartin 


不 笠 的 是 ， 由 于 看 不 到 谁 拥有 锁 ， 因 此 很 难 确 定 哪个 事务 导致 这 个 
问题 。 不 过 往往 可 以 通过 查看 哪个 事务 打开 了 非常 长 的 一 段 时 间 来 有 根 
所 地 猜测 ， 还 有 为 外 一 种 方法 ， 可 以 激活 InnoDB 锁 监控 器 ， 它 最 多 可 
以 显示 每 个 事务 中 拥有 的 10 把 锁 。 为 了 激活 该 监控 右 ， 需 要 在 InnoDB 
存储 引擎 中 创建 一 个 特殊 名 字 的 表 。 乌 





mysql> CREATE TABLE innodb_lock_monitor(a int) ENGINE=INNODB; 





发 起 这 个 查询 后 ，InnoDB 开 始 定 时 地 (这 个 间隔 时 间 可 以 变化 ， 
但 通常 是 每 分 钟 几 次 ) 打印 SHOW INNODB STATUS 的 一 个 略微 加 强 的 版 本 
的 输出 到 标准 输出 中 。 在 大 多 数 系统 中 ， 这 个 输出 被 重 定向 到 服务 器 的 
错误 日 志 中 ;你 可 以 检查 它 以 查看 哪个 事务 应 该 拥有 那 把 锁 。 知 想 停 掉 
锁 监 控 器 ， 删 除 这 个 表 即 可 。 





下 面 是 锁 监 控 占 输出 的 相关 例子 。 


---TRANSACTION © 61717, ACTIVE 3 sec, process no 5102, OS t 
3 lock struct(s), heap size 1216 

MySQL thread id 11, query id 108 localhost baron 

show innodb status 


TABLE LOCK table ‘sakila/film trx id © 61717 lock mode IX 


© on BF Ww N FB 


RECORD LOCKS space id 0 page no 194 n bits 1072 index `idx_ 
“sakila/film trx id © 61717 lock_mode X 
7 Record lock, heap no 2 PHYSICAL RECORD: n_fields 2; compact 


8 ... omitted ... 

9 

10 RECORD LOCKS space id © page no 231 n bits 168 index ~PRIM. 
trx id © 61717 lock_mode X locks rec but not gap 

11 Record lock, heap no 2 PHYSICAL RECORD: n_fields 15; compa 


12 ... omitted ... 


请 注意 ， 第 3 行 显 示 的 MySQL 线 程 ID， 跟 进程 列表 里 ID 列 的 值 是 一 
样 的 。 第 5 行 显示 了 该 事务 在 表 里 有 一 个 显 式 的 独占 表 锁 IX) 。 第 6 一 
8 行 显示 了 索引 里 的 锁 。 我 们 删除 了 第 8 行 的 信息 ， 是 因为 它 导 出 了 这 个 
锁定 的 记录 ， 显 得 非常 累 效 。 第 9 一 11 行 显示 了 主键 上 相应 的 锁 (FOR 
UPDATE 锁 必须 锁 住 整 行 ， 而 不 仅仅 是 索引 ) 。 


























当 锁 监控 器 被 激活 的 时 候 ，SHOW INNODB STATUS 里 也 会 有 额外 的 信 
息 ， 因 此 ， 实 际 上 无 须 检查 服务 器 的 错误 日 志 ， 就 可 以 查看 锁 信 息 。 





出 于 种 种 原因 ， 锁 监控 器 并 不 是 最 理想 的 。 它 的 主要 问题 是 锁 信 息 
非常 元 长 ， 因 为 导出 了 被 锁定 记录 的 十 六 进 制 格式 和 ASCII 格 式 。 它 会 
填 满 错误 日 志 ， 并 且 还 会 很 轻易 地 溢出 固定 长 度 的 SHOW INNODB STATUS 
输出 结果 。 这 意味 着 你 可 能 无 法 查看 到 在 那 一 段 之 后 的 其 他 输出 信息 。 
InnoDB 对 每 个 事务 打印 锁 的 数量 有 硬 编码 限制 ， 即 每 个 事务 只 能 打印 
出 10 个 持 有 的 锁 ， 超 过 10 个 就 无 法 输出 ， 这 意味 着 你 可 能 看 不 到 需要 的 
锁 信息 。 这 还 不 算 完 ， 即 使 要 找 的 东西 确实 在 里 面 ， 也 难以 把 它 从 所 有 
锁 的 输出 信息 里 定位 出 来 。( 只 需 在 一 个 繁忙 的 系统 上 斌 一下， 你 就 会 
体会 到 这 一 点 。) 











有 两 样 东西 能 够 使 锁 的 输出 信息 更 加 有 用 。 第 一 样 是 本 书 作 者 之 一 
为 IhnoDB 和 和 MySQL 服务 器 编写 的 一 个 补丁 ， 包 含 在 Percona Server 和 


MariaDB 中 。 这 个 补丁 会 移 除 输 出 结果 里 那些 元 长 的 记录 导出 信息 ， 默 
认 会 把 锁 信 息 包含 到 SHOW INNODB STATUS 的 输出 中 《因而 锁 监 控 器 
就 无 须 激活 了 ) ， 还 会 增加 动态 可 设置 服务 器 变量 来 控制 见长 的 输出 信 
息 ， 以 及 每 个 事务 能 打印 出 的 锁 信息 的 个 数 。 


第 二 个 可 选用 的 方法 是 使 用 innotop 来 解析 和 格式 化 输出 结果 。 它 的 
Lock 模 式 能 够 显示 锁 信 息 ， 并 通过 连接 和 表 优 关 地 聚合 在 一 起 ， 因 而 能 
很 快 地 看 出 哪 一 个 事务 持 有 指定 表 的 锁 。 但 是 ， 这 也 并 非 是 万 无 一 失 的 
方法 ， 因 为 它 是 通过 检查 所 有 被 锁定 记录 的 导出 信息 来 精确 地 找 出 那个 
被 锁定 记录 。 无 论 怎样 ， 这 还 是 要 比 常用 的 方法 好 很 多 ， 对 于 大 多 数 用 
途 都 足够 好 了 。 








使 用 INEORMATION SCHEMA 


使 用 SHOW INNODB STATUS 来 查看 锁 绝 对 是 老 派 做 法 ， 现 在 mnoDB 
有 INFORMATION_SCHEMA 来 显露 它 的 事务 和 锁 。 


如 末 你 看 不 到 这 个 表 ， 说 明 你 使 用 的 mnoDB 版 本 还 不 够 新 。 至 少 
需要 MySQL 5.1 和 InnoDB 插 件 。 如 果 你 正在 使 用 MySQL 5.1， 但 没有 看 
到 INNODB _ LOCKS 表 ， 请 用 SHOW VARIABLES 检 查 innodb_ version 变 
量 。 如 果 没 有 看 到 这 个 变量 ， 说明 你 还 没有 使 用 InnoDB 插 件 ， 你 需要 
E! 如 果 看 到 了 这 个 变量 但 没有 那些 表 ， 那 么 你 需要 确保 服务 器 配置 文 
件 的 plugin_load 设 置 中 明确 包括 了 那些 表 。 详 情 请 查阅 MySQL 用 户 手 
册 。 


幸运 的 是 ，MySQL 5.5 中 不 需要 担心 这 些 ，InnoDB 的 高 级 版 本 已 经 
将 它 编译 到 服务 器 中 。 


对 这 些 表 可 使 用 的 查询 ，MySQL 和 InnoDB 手 册 都 有 样 例 ， 在 此 不 
再 重复 ， 但 我 们 要 增加 两 个 自己 的 例子 。 例 如 ， 下 面 是 一 个 显示 谁 阻塞 
和 谁 在 等 待 ， 以 及 等 待 多 久 的 查询 。 


SELECT r.trx_id AS waiting_trx_id, r.trx_mysql_thread_id AS w 
TIMESTAMPDIFF(SECOND, r.trx_wait_started, CURRENT_TIMESTAM 
r.trx_query AS waiting_query, 
1.lock table AS waiting table lock, 
b.trx_id AS blocking trx_id, b.trx_mysql_thread_id AS bloc 
SUBSTRING(p.host, 1, INSTR(p.host, ':') - 1) AS blocking_h 
SUBSTRING(p.host, INSTR(p.host, ':') +1) AS blocking_port, 
IF(p.command = "Sleep", p.time, 0) AS idle_in_trx, 
b.trx_query AS blocking_query 

FROM INFORMATION_SCHEMA.INNODB_LOCK_WAITS AS w 

INNER JOIN INFORMATION_SCHEMA.INNODB_TRX AS b ON b.trx_id 

INNER JOIN INFORMATION _SCHEMA.INNODB_TRX AS r ON r.trx_id 

INNER JOIN INFORMATION_SCHEMA.INNODB_LOCKS AS 1 ON w.reques 

LEFT JOIN INFORMATION_SCHEMA.PROCESSLIST AS p ON p.id 

ORDER BY wait_time DESC\G 

FO IOI CII IO IO IO ICI ICICI IO q. pow RII IR IR II IA A A I Kk 

waiting _trx_id: 5D03 
waiting thread: 3 
wait_time: 6 
waiting query: select * from store limit 1 for update 
waiting _table_lock: ‘sakila store’ 
blocking_trx_id: 5D02 
blocking_thread: 2 


blocking_host: localhost 
blocking_port: 40298 
idle_in_trx: 8 


blocking_query: NULL 





结果 显示 线程 3 已 经 等 待 store 表 中 的 锁 达 6s。 它 在 线程 2 上 被 阻 
， 而 该 线程 已 经 空 困 了 8s。 





如 果 你 因为 线程 在 一 个 事务 中 空闲 而 正在 遭受 大 量 的 锁 操 作 ， 下 面 
的 这 个 变种 得 询 可 以 告诉 你 有 多 少 得 询 和 被 哪些 线程 阻塞 ， 而 没有 多 余 的 
无 用 信息 。 


SELECT CONCAT('thread ', b.trx_mysql_thread_id, ' from ', p.h 
IF(p.command = "Sleep", p.time, 0) AS idle_in_trx, 
MAX(TIMESTAMPDIFF(SECOND, r.trx_wait_started, NOW())) AS ma 
COUNT(*) AS num_waiters 


FROM INFORMATION_SCHEMA.INNODB_LOCK_WAITS AS w 


Il 
= 


INNER JOIN INFORMATION_SCHEMA.INNODB_TRX AS b ON b.trx_id 


INNER JOIN INFORMATION_SCHEMA.INNODB_TRX AS r ON r.trx_id 


I 
= 


LEFT JOIN INFORMATION_SCHEMA.PROCESSLIST AS p ON p.id = b.trx 


GROUP BY who_blocks ORDER BY num waiters DESC\G 


火炎 火炎 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 row 大 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 火炎 火炎 火炎 火炎 火炎 火炎 


who_blocks: thread 2 from localhost:40298 
idle_in_trx: 1016 
max_wait_time: 37 


num_waiters: 8 





结果 显示 线程 2 已 经 空 几 了 更 长 的 一 段 时 间 ， 并 且 人 至 少 有 一 个 线程 


己 经 等 待 它 释放 它 的 锁 长 达 37s。 有 8 个 线程 在 等 竺 线程 2 完成 它 的 工作 
并 提交 。 

我 们 发 现 idle-in-transaction 锁 操作 是 常见 锁 故 障 的 一 种 起 因 ， 并 且 
有 时 候 很 难 诊断 。Percona Toolkit 中 的 pt-kil1 可 以 配置 用 来 杀 死 长 时 间 运 
行 的 空 内 事务 以 阻止 这 个 场景 。Percona Server 本 里 也 文 持 一 个 空间 事务 
超时 参数 来 完成 相同 的 事情 。 





(1) 如 果 需 要 回忆 关于 服务 器 和 存储 引擎 之 间 的 隔离 ， 请 参考 第 1 章 中 的 图 1-1。 


(2) InnoDB 把 几 个 “神奇 的 ” 表 名 作为 操作 指令 来 用 。 当 前 采用 的 是 动态 可 设置 的 服务 器 变 
量 ， 但 是 ， InnoDB 的 方法 已 经 使 用 了 很 长 一 段 时 间 ， 所 以 仍然 留 有 原先 的 行为 方式 。 















































附录 F 在 MySQL 上 使 用 Sphinx 


Sphinx (http:/www.sphinxsearch.com) 是 一 个 免费 、 开 源 的 全 文 搜 
索引 擎 ， 设 计 着 眼 于 与 数据 库 完 美 结 合 。 它 有 类 似 DBMS 的 特性 ， 碍 询 
速度 非常 快 ， 文 持 分 布 式 检索 ， 并 且 可 扩展 性 好 。 它 可 以 高 效 利 用 内 存 
和 磁盘 WO， 绥 解 大 型 操作 在 这 部 分 的 瓶 贷 ， 这 非常 重要 。 








Sphinx 在 MySQL 上 工作 得 很 好 。 它 可 以 被 用 来 加 速 各 种 各 样 的 查 
询 ， 包 括 全 文 搜索 。 也 可 以 用 来 在 其 他 应 用 中 执行 快速 的 分 组 和 排序 操 
作 。 它 遵从 MySQL 的 通信 协议 ， 以 及 主要 的 MySQL 的 SQL 语 法 ， 使 用 
户 束 像 操纵 MySQL 一 样 进行 查询 。Sphinx 对 某 些 特定 的 查询 非常 有 用 : 
MySQL 的 通用 架构 对 真实 世界 中 的 大 型 数据 库 优化 得 并 不 好 。 简 而 言 
之 ，Sphinx 可 以 加 强 MySQL 的 功能 和 性 能 。 





Sphinx 索引 的 源 数据 通常 就 是 MySQL SELECT 查询 的 结果 ,但 
是 ， 也 可 以 用 不 同类 型 的 无 限 的 数据 来 源 来 建立 索引 ， 每 一 个 Sphinx 示 
例 都 能 搜索 到 无 限 的 索引 。 举 例 来 说 ， 你 可 以 从 位 于 一 台 远 程 服务 器 上 
的 MySQL 实例 拉 几 份 文档 放 入 索引 里 ， 从 位 于 男 一 台 远 程 服务 器 上 的 
PostgreSQL 实 例 拉 几 份 文档 过 来 ， 再 加 上 几 份 本 地 的 脚本 通过 XML 管 
道 机 制 输出 的 文档 。 


在 本 附录 里 ， 我 们 将 列举 一 些 能 让 Sphinx 体 现 出 性 能 增强 的 使 用 案 
例 ， 然 后 讲述 一 下 安装 和 配置 Sphinx 所 需 的 主要 步骤 ， 接 着 详细 说 明 它 
的 功能 特点 ， 最 后 讨论 几 个 现实 中 应 用 的 例子 。 


一 个 典型 的 Sphinx 搜 索 


我 们 用 一 个 简单 但 是 完整 的 Sphinx ”应 用 例子 作为 进一步 讨论 的 起 
点 。 虽 然 Sphinx 的 API 可 用 于 多 种 编程 语言 ， 但 是 ， 在 这 里 我 们 使 用 的 
是 PHP， 因 为 它 比 较 普 及 。 





假设 我 们 要 实现 的 是 一 个 用 于 比较 购物 引擎 里 的 全 文 搜索 ， 其 具体 
需求 如 下 。 





。 对 MySQL 中 的 一 个 产品 表 维 护 一 个 可 搜索 的 全 文 索引 。 

。 人 允许 对 产品 的 名 称 和 描述 进行 全 文 搜索 。 

。 如 有 需要 ， 能 够 用 指定 的 分 类 缩小 搜索 范围 。 

。 不 仅 可 以 按 关 联 度 对 搜索 结果 进行 排序 ， 也 可 以 用 物品 的 价格 或 提 
交 日 期 来 排序 。 


我 们 先 在 Sphinx 配 置 文件 里 设置 好 数据 源 和 索引 。 


Source products 


{ 
type = mysql 
sql_host = localhost 
sql_user = shopping 
sql_pass = mysecretpassword 
sql_db = shopping 


sql_query = SELECT id, title, description, \ 
cat_id, price, UNIX_TIMESTAMP(added_date) AS adde 


FROM products 


sql_attr_uint = cat_id 
sql_attr_float = price 


sql_attr_timestamp = added_ts 


} 

index products 

{ 
source = products 
path = /usr/local/sphinx/var/data/products 
docinfo = extern 

} 


这 个 例子 假设 MySQL 的 shopping 数 据 库 中 包含 了 products 表 ， 而 
此 表 中 有 供 我 们 执行 SELECT 查询 生成 我 们 的 Sphinx 索 引 的 列 。 该 
Sphinx 索 引 也 命名 为 products。 在 创建 新 数据 源 和 索引 后 ， 我 们 运行 
indexer 程 序 来 创建 最 初 的 全 文 索引 数据 文件 ， 然 后 启动 〈 或 重 
JA) searchnd 后 台 进 程 以 同步 这 些 变更 。 


cd /usr/local/sphinx/bin 
./indexer products 


./searchd --stop 


ff Ff Q 


./searchd 





索引 现在 已 经 就 绪 可 以 用 于 查询 了 。 我 们 用 Sphinx 捆 绑 的 tesktppp 样 
例 脚本 来 测试 它 。 


$ php -q test.php -i products ipod 


Query ‘ipod ' retrieved 3 of 3 matches in 0.010 sec. 


Query stats: 


Ma 
1. 
2. 
3. 


'ipod' found 3 times in 3 documents 
tches: 
doc_id=123, weight=100, cat_id=100, price=159.99, added_ts 
doc_id=124, weight=100, cat_id=100, price=199.99, added_ts 
doc_id=125, weight=100, cat_id=100, price=249.99, added_ts 


最 后 一 步 是 将 搜索 功能 加 到 我 们 的 网 络 应 用 中 。 我 们 需要 基于 用 户 
ee ee Hees 并 让 输出 格式 漂亮 些 。 同 时 ， 因 为 Sphinx 返 
回 给 客户 端的 只 有 文档 的 ID 和 配置 属性 一 一 已 没有 存储 任何 原始 文本 数 
据 一 一 所 以 ， 我 们 还 要 从 MySQL 里 读 取 对 应 的 行 数据 。 
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<?php 
include ( "sphinxapi.php" ); 
// ... other includes, MySQL connection code, 


// displaying page header and search form, etc. all go here 


// set query options based on end-user input 
$cl = new SphinxClient (); 
$sortby = $ REQUEST["sortby"]; 


if ( !in_array ( $sortby, array ( "price", "added_ts" ) ) ) 








$sortby = "price"; 
if ( $_REQUEST["sortorder"]=="asc" ) 

$cl->SetSortMode ( SPH_SORT_ATTR_ASC, $sortby ); 
else 

$cl->SetSortMode ( SPH_SORT_ATTR_DESC, $sortby ); 
$offset = ($_REQUEST["page"]-1)*$rows_per_page; 


16 $cl->SetLimits ( $offset, $rows_per_page ); 

17 

18 // issue the query, get the results 

19 $res = $cl->Query ( $_REQUEST["query"], "products" ); 
20 

21 // handle search errors 


22 if ( !$res ) 


23 { 

24 print "<b>Search error:</b>" . $cl->GetLastError (); 
25 die; 

26 } 

27 


28 // fetch additional columns from MySQL 

29 $ids = join ( ",", array_keys ( $res["matches"] ); 

30 $r = mysql_query ( "SELECT id, title FROM products WHERE i 
31 or die ( "MySQL error: " . mysql_error() ); 

32 while ( $row = mysql_fetch_assoc($r) ) 

33 { 

34 $id = $row["id"]; 

35 $res["matches"][$id]["sql"] = $row; 

36 } 

37 

38 // display the results in the order returned from Sphinx 
39 $n = 1 + $offset; 

40 foreach ( $res["matches"] as $id=>$match ) 

41 { 


42 printf ( "%d. <a href=details.php?id=%d>%s</a>, USD %.2 


43 $n++, $id, Smatch["sql"]["title"], Smatch["attrs"][ 


45 


46 ?> 


尽管 上 面 显示 的 这 段 代 码 看 上 去 相当 简单 ， 但 还 是 有 些 东西 值得 强 
调 一 下 。 





SetLimits () 调用 会 告诉 Sphinx 只 获取 客户 端 要 在 页 面 上 显示 的 行 
数 。 做 这 样 的 限定 在 Sphinx 中 很 方便 (不 同 于 MySQL 内 建 的 搜索 功 
fe) ， 不 加 限定 的 结果 数目 也 可 以 通过 $result['total_found'] 来 
获得 ， 而 不 需要 任何 额外 开销 。 

因为 Sphinx 只 索引 title 列 ， 并 没有 存储 它 ， 因 而 必须 从 MySQL 里 
读 取 数 据 。 

我 们 使 用 一 条 单独 的 合成 查询 获取 数据 ， 把 所 有 文档 都 放 在 
WHERE id IN (...) 子 句 中 ， 而 不 是 每 个 文档 运行 一 次 查询 (这 会 非 
常 低 效 ) 。 

我 们 将 从 MySQL 里 获取 到 的 行 注 入 到 全 文 搜 索 的 结果 集 里 ， 以 保 
持原 始 的 排列 顺序 。 在 下 文 里 我 们 会 对 此 做 一 些 解释 。 

我 们 使 用 来 自 Sphinx 和 MySQL 的 数据 来 显示 每 一 行 。 











那些 由 PHP 写 的 行 注 入 代码 需要 再 做 一 些 解释 。 我 们 不 能 简单 地 对 
MySQL 碍 询 的 结果 集 做 远 历 ， 因 为 行 的 次 序 跟 WHERE id IN (...) 子 名 
里 指定 的 《多 数 情况 下 ) 不 一 样 。 但 是 ，PHP 会 对 结果 进行 哈 希 (使 用 
关联 数组 ) ， 保 持 匹配 结果 插入 时 的 排列 顺序 ， 这 样 Sphinx 就 可 以 通过 
$result["matches"] 返 回 排序 正确 的 行 了 。 因 此 ， 为 了 从 Sphinx 返 回 的 
匹配 结果 能 保持 正确 的 次 序 〈 而 不 是 MySQL 生 成 的 那 种 半 随 机 的 次 
序 ) ， 我 们 需要 把 MySQL 的 查询 结果 一 个 接 一 个 地 注入 到 PHP 用 来 存储 


Sphinx 匹 配 结果 集 的 哈 希 中 。 


对 于 计数 匹配 和 应 用 LIMIT 子 句 ，MySQL 和 Sphinx 在 实现 方式 及 性 
能 上 存在 着 比较 大 的 区 别 。 首 先 ，LIMIT 在 Sphinx 里 开销 是 比较 低 的 。 
设想 有 一 个 LIMIT 500,10 的 子 句 ， MySQL 会 半 随 机 地 读 出 510 行 数据 
(这 是 比较 慢 的 ) ， 然 后 丢弃 掉 其 中 的 500 行 ， 而 Sphinx 会 返回 一 组 
ID， 你 可 以 用 这 些 ID 从 MySQL 上 读 取 到 实际 所 需 的 数据 行 。 其 次 ， 
Sphinx 总 是 返回 指定 的 行 数 或 者 它 在 结果 集 里 找到 的 实际 匹配 数目 ， 而 
与 LIMIT 子 句 是 怎么 样 的 无 关 。 ”MySQL 无 法 做 到 这 么 高 效 ， 尽 管 在 
MySQL 5.6 中 对 这 个 限制 有 部 分 的 优化 。 





为 什么 要 使 用 Sphinx 


Sphinx 可 以 在 多 个 方面 完善 基于 MySQL 的 应 用 程序 ， 能 补充 
MySQL 的 性 能 不 足 ， 还 提供 了 MySQL 所 没有 的 功能 。 典 型 的 使 用 场景 
如 下 。 





。 快 速 、 高 效 、 可 扩展 和 核心 的 全 文 搜索 。 

能 在 使 用 低 选 择 性 索引 或 无 索引 的 列 时 优化 WHERE 条 件 。 
优化 ORDER BY . .LIMITN 查 询 以 及 GROUP BY 查询 。 

并 行 地 产生 结果 集 。 

向 上 扩展 和 向 外 扩展 。 

聚合 分 片 数据 。 








我 们 在 下 面 这 些小 节 里 对 这 些 场景 逐一 进行 探讨 。 然 而 ， 这 个 列表 
也 不 是 完整 的 ， ”Sphinx 的 用 户 时 不 时 还 会 发 现 新 的 应 用 方法 。 例 如 ， 
Sphinx 最 重要 用 途 之 一 一 一 快速 扫描 和 过 滤 记 录 一 一 就 是 由 一 位 用 户 创 
造 出 来 的 ， 并 不 是 Sphinx 最 初 的 设计 目标 之 一 。 


局 效 、 可 扩展 的 全 文 搜索 


MyISAM 的 全 文 搜 索 能 力 对 小 数据 集 非常 快 ， 但 随 奢 数据 量 增长 ， 
性 能 会 非常 低 。 对 百 万 级 别 的 记录 量 和 上 GB 的 索引 文本 ， 查 询 时 间 会 
在 1 秒 到 超过 10 分 钟 之 间 变 化 ， 而 这 对 于 高 性 能 的 网 站 应 用 来 说 是 不 可 
接受 的 。 尺 管 通过 将 数据 分 布 到 多 个 地 方 可 能 会 扩展 MyISAM 的 全 文 搜 
索 ， 但 这 需要 并 行 地 运行 查询 并 在 应 用 程序 中 将 结果 合并 ， 大 大 增加 了 




















中 间 层 的 复杂 度 。 





Sphinx 运 作 速 度 要 明显 快 于 MyISAM 内 建 的 全 文 索引 。 比 如 说 ， 它 
查询 超过 1GB 的 文本 数据 需要 10~100ms 一 一 最 多 可 以 扩展 到 每 个 CPU 处 
理 10~100GB 的 数据 。Sphinx 还 有 如 下 优点 。 








它 能 对 InnoDB 及 其 他 存储 引擎 里 存储 的 数据 进行 索引 ， 而 不 仅仅 
是 MyISAM。 

它 能 对 多 个 源 表 的 混合 数据 创建 索引 ， 不 限于 单个 表 上 的 字段 。 
它 能 将 来 自 多 个 索引 的 搜索 结果 进行 动态 整合 。 

除了 能 对 文本 列 索 引 外 ， 它 的 索引 还 可 以 包含 无 限 数量 的 数字 属性 
一 一 跟 * 额 外 字段 ”一样 。Sphinx 的 属性 可 以 是 整 型 、 浮 点 型 和 
UNIXIN TH) ÆR 

它 能 根据 属性 上 的 附加 条 件 对 全 文 搜索 进行 优化 。 

它 的 基于 短语 的 排列 算法 能 帮助 它 返 回 更 多 相关 的 结果 。 例 如 ， 如 
果 你 在 一 个 歌词 表 中 搜索 “我 爱 你 ， 亲 爱 的 "， 那 么 恰好 包含 该 短语 
的 歌曲 将 在 最 上 面 返 回 ， 之 后 才 是 那些 只 包含 多 次 “ 爱 ” 或 “亲爱 
的 ”的 歌曲 。 

它 使 得 加 外 扩展 更 容易 。 


高 效 使 用 WHERE 子 句 


有 时 你 需要 对 很 大 的 表 (有 几 百 万 条 记录 )〉 做 SELECT 查询 ， 同 时 ， 
几 个 WHERE 条 件 里 有 索引 选择 性 非常 大 (例如 指定 WHERE 条 件 返 回 太 多 
行 ) 或 者 根本 没有 索引 支持 的 字段 。 


























常见 的 例子 有 : 在 一 个 社交 网 站 上 搜索 用 户 ， 以 及 在 一 个 拍卖 网 站 


上 搜索 物品 。 典 型 的 搜索 接口 是 让 用 户 能 在 WHERE 条 件 加 10 个 或 更 多 的 
列 ， 而 返回 结果 又 是 按 其 他 列 来 排序 。 第 5 章 中 索引 案例 研究 的 例子 ， 
就 是 这 样 的 一 个 应 用 ， 并 且 需 要 索引 策略 。 


当 有 合适 的 数据 结构 和 查询 优化 时 ， 只 要 WHERE 子 句 不 包含 太 多 的 
列 ， 尚 可 以 接受 用 MySQL 来 应 付 这 些 人 查询。 但 是 ， 随 着 列 的 数目 增 
加 ， 支 持 所 有 可 能 搜索 所 需 的 索引 数 会 呈 指 数 级 增长 。 蛙 是 要 徐 盖 到 四 
列 的 所 有 可 能 的 组 合 情 况 ，MySQL 就 要 达到 极限 了 。 它 会 变 得 非常 
慢 ， 并 且 要 花费 很 多 系统 开销 去 维护 索引 。 这 意味 者 对 于 许多 WHERE 
条 件 ， 实 际 上 不 可 能 拥有 它 所 需要 的 所 有 索引 ， 你 不 得 不 在 没有 索引 的 
条 件 下 运行 查询 。 

















更 重要 的 是 ， 即 使 可 以 增加 索引 ， 也 无 法 受 荔 很 多 ， 除 非 它 们 具有 
民 好 的 可 选择 性 。 有 一 个 典型 的 例子 是 gender 列 ， 它 几乎 帮 不 上 忙 ， 
为 会 命中 大 约 所 有 行 中 的 一 半 。 当 索引 因 缺 少 可 选择 性 而 帮 不 上 忙 时 ， 
MySQL- RREI ERKAN. 





Sphinx 运 行 这 类 查询 的 速度 比 MySQL 快 很 多 。 你 可 以 只 将 数据 中 所 
需要 的 列 做 成 Sphinx 索 引 。 然 后 Sphinx 会 允许 用 两 种 方式 来 访问 这 些 数 
据 : 用 关键 字 索 引 搜 索 或 全 表 扫 描 。 在 这 两 种 方式 里 ，Sphinx 都 用 到 了 
过 滤器 ， 它 相当 于 一 个 WHERE 子 句 。 但 是 ， 和 MySQL 不 一 样 ，MySQL 
是 在 内 部 决定 使 用 索引 还 是 全 扫描 ， 而 Sphinx 是 让 你 上 自己 选择 要 使 用 哪 
一 种 访问 方法 。 











要 使 用 带 筛 选 的 全 扫描 ， 你 可 以 指定 一 个 空 字 符 串 用 作 搜 索 碍 询 条 
件 ， 要 使 用 索引 搜索 ， 你 可 以 在 构建 索引 时 加 一 些 伪 关 键 字 进去 ， 然 后 
再 搜索 那些 关键 字 。 例 如 ， 如 果 你 想 搜索 分 类 123 里 的 物品 ， 你 可 以 在 
建 索引 时 把 “分 类 123? 关 键 字 添加 到 文档 里 ， 然 后 针对 “分 类 123? 做 全 文 








搜索 。 你 可 以 使 用 CONCATO 函 数 把 关键 字 加 到 已 有 的 一 个 字段 里 ， 或 
者 为 了 更 好 的 灵活 性 ， 为 这 些 伪 关 键 字 创建 一 个 特别 的 全 文 搜索 字段 。 
通常 而 言 ， 对 于 徐 冀 率 超 过 30% 无 选择 性 值 的 行 就 应 该 选择 往 选 ， 而 对 
于 具有 选择 性 的 值 履 盖 面 不 超过 10% 的 ， 应 该 使 用 伪 关 键 字 ; 如 果 目 标 
值 是 处 于 10%~30% 的 灰色 区 域 ， 就 难说 了 。 你 应 该 做 几 次 基准 测试 以 
找 出 最 佳 解决 方案 。 








Sphinx 无 论 是 执行 索引 搜索 还 是 全 扫描 都 快 过 MySQL。 有 时 ， 
Sphinx 的 全 扫描 实际 上 比 MySQL 的 索引 读 取 还 要 快 。 


找 出 结 朱 集 里 的 前 几 行 


Web 应 用 常常 需要 用 到 结果 集 里 按 顺 序 排列 的 前 N 行 。 如 同 我 们 之 
前 讨论 过 的 ， 在 MySQL 5.5 和 之 前 版 本 中 很 难 优化 。 





最 糟糕 的 情况 就 是 根据 WHERE 条 件 找到 了 许多 行 ( 假 设 有 100 万 
行 )， 而 ORDER BY 里 的 列 却 没有 被 索引 过 。MySQL 使 用 索引 识别 出 所 
有 匹配 的 行 ， 然 后 使 用 半 随 机 磁盘 读 ， 把 记录 一 行 接 一 行 地 读 到 排序 组 
冲 区 里 ， 接 着 用 一 种 文件 排序 将 这 些 结果 进行 排序 ， 最 后 丢弃 其 中 的 绝 
大 多 数 。 它 会 临时 存储 和 处 理 整 个 结果 集 ， 和 忽略 LIMIT 子 句 ， 搅 乱 
RAM。 如 果 排 序 绥 冲 区 放 不 下 整个 结果 集 ， 还 需要 用 到 临时 表 ， 引 发 
更 多 的 磁盘 IO。 


这 里 还 有 一 个 极端 的 例子 ， 你 可 能 会 认为 这 在 真实 世界 里 几乎 不 会 
发 生 ， 但 事实 上 ， 它 常常 会 发 生 。MySQL 在 用 于 排序 的 索引 方面 是 有 
限制 的 只 使 用 索引 的 最 左边 部 分 ， 不 文 持 松 散 索 引 扫 摘 (loose 
index scan )， 并 且 只 人 允许 一 个 单独 的 范围 条 件 一 一 这 意味 着 真实 世界 里 
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获取 行 也 是 一 个 性 能 杀手 。 


要 对 结果 集 进 行 分 页 ， 第 第 需要 做 形 如 SELECT .. .LIMITN,M 的 碍 
询 ， 这 是 MySQL 的 男 一 个 性 能 i. 它们 会 从 磁盘 里 读 取 N + MAT, FA 
此 引发 大 量 的 随机 IO， 浪费 内 存 资源 。Sphinx 通过 消除 以 下 两 个 主要 
问题 可 以 显著 加 速 这 类 查询 。 


内 存 使 用 


Sphinx 对 RAM 的 使 用 有 严格 限制 ， 这 个 限制 也 是 可 以 配置 的 。 
Sphinx 也 支持 与 MySQL ”LIMITN, M 语 法 类 似 的 结果 集 偏 移 量 和 大 
小 ， 但 是 它 还 有 一 个 max_matches 选 项 。 它 以 每 个 服务 器 和 每 个 查 
询 为 基础 ， 可 控制 类 似 “ 排 序 缓冲 区 ”的 大 小 。 


1/0 





如 果 属 性 是 存储 在 RAM 里 的 ，Sphinx 就 不 会 做 任何 W/O 操作 。 
即使 属性 是 存储 在 磁盘 上 ，Sphinx 也 是 通过 顺序 WO 来 读 取 它 们 ， 这 
比 MySQL 使 用 半 随 机 方式 从 磁盘 获取 行 要 快 很 多 。 














过 综合 关联 度 〈 权 重 ) 、 属 性 值 和 聚合 函数 值 〈 当 使 用 GROUP 
Bb ， 可 以 对 搜索 结果 进行 排序 。 排 序 子 句 的 语法 跟 SQL ORDER 
BY 子 句 类 似 。 





<?php 
$cl = new SphinxClient (); 
$cl->SetSortMode ( SPH_SORT_EXTENDED, 'price DESC, @weight AS 


// more code and Query() call here... 


?> 





在 本 例 中 ，price 是 存储 在 索引 中 的 用 户 指定 的 属性 ，@weight 是 一 
个 特殊 的 属性 ， 在 运行 时 创建 ， 它 包含 的 是 每 一 个 搜索 结果 估算 出 来 的 
关联 度 。 你 也 可 以 使 用 算术 表达 式 对 结果 再 进行 排序 ， 算 术 表 达 式 里 可 
以 包含 属性 值 、 常 用 数学 运算 符 和 函数 。 





<?php 

$cl = new SphinxClient (); 

$cl->SetSortMode ( SPH_SORT_EXPR, '@weight + log(pageviews)*1 
// more code and Query() call here... 


?> 


优化 GROUP BY 查询 


没有 GROUP ”BY 功能 的 话 ， 对 于 日 常 的 类 SQL 子 句 的 支持 也 将 不 完 
整 ， 因 此 ，Sphinx 也 支持 GPOUP BY。 但 与 MySQL 的 通用 实现 不 同 ， 
Sphinx 擅 长 高 效 筛 选 出 GROUP BY 任务 所 需要 的 实际 子 集 。 这 个 子 集 可 
以 从 如 下 场景 拥有 的 大 数据 集 〈1 亿 行 ) 中 生成 报表 : 


。 结果 是 分 组 行 中 的 少 部 分 〈 这 里 的 “ 少 ” 是 指 10 万 一 100 万 量 级 ) 。 
© 当 从 分 布 在 集群 中 的 多 台 机 器 上 获取 很 多 分 组 数据 时 ， 需 要 非常 快 
的 执行 速度 ， 同 时 近似 的 COUNT(*) 结 果 可 以 接受 。 





这 没有 上 听 起 来 那样 严格 。 第 一 个 场景 实际 上 获 兰 了 所 有 可 以 想象 的 
基于 时 间 的 报告 。 举 个 例子 ， 每 小 时 一 次 且 持 续 时 间 为 10 年 的 一 个 详细 
报告 ， 将 会 返回 少 于 90 ”000 行 记录 。 第 二 个 场景 可 以 像 这 样 通 俗 地 表 


:“ 尽 可 能 迅速 和 精确 地 从 1 亿 行 的 分 片 表 中 找 出 最 重要 的 20 条 记 





这 两 种 类 型 的 查询 会 加 速 通用 查询 ， 但 也 可 以 在 全 文 搜索 应 用 中 使 
用 。 许 多 应 用 不 仅 需要 显示 全 文 匹配 结果 ， 还 要 显示 一 些 聚集 结果 。 例 
如 ， 许 多 搜索 绪 末 页 显示 了 每 个 产品 目录 中 有 多 少 匹 配 的 产品 被 找到 ， 
或 一 张 按 时 间 顺 序 的 数量 变化 图 。Sphinx 的 group-by 支 持 可 以 结合 分 组 
和 全 文 搜 索 ， 消 除 在 应 用 程序 或 MySQL 中 做 分 组 的 开销 。 














在 Sphinx 中 的 排序 和 分 组 都 使 用 固定 的 内 存 ， 它 的 效率 比 类 似 数据 
集 全 部 可 以 放 在 RAM 中 的 MySQL 查 询 要 稍微 (10% ~50% ) 高 些 。 在 
本 例 中 ， 大 部 分 Sphinx 的 能 力 来 源 于 它 可 以 分 散 负载 和 大 大 减少 延 时 。 
对 于 水 不 会 全 部 放 入 RAM 中 的 大 数据 集 来 说 ， 可 以 使 用 内 联 属性 (后 
面 会 定义 ) 创建 特别 的 基于 磁盘 的 索引 来 生成 报告 。 对 这 些 索引 执行 查 
询 大 约 和 读数 据 一 样 快 一 一 在 现代 硬件 中 大 概 是 30 一 100MB/s。 在 这 个 
情况 下 ， 人 性 能 会 比 MySQL 好 许多 倍 ， 尽 管 结果 是 近似 的 。 











与 MySQL 的 GROUP BY 最 大 的 不 同 点 是 ， 在 某 些 特定 场景 下 Sphinx 可 
能 只 生成 近似 结果 。 对 于 这 点 有 两 个 原因 。 


。 使 用 固定 量 的 内 存 来 做 分 组 。 如 果 有 太 多 的 分 组 而 不 能 放 在 RAM 
中 ， 并 且 以 茶 种 “不 入 的 ?顺序 匹配 ， 每 组 数量 可 能 比 实际 值 要 小 。 

。 分 布 式 搜索 只 发 送 联合 结果 ， 而 不 是 一 个 贡 氮 一 个 节点 进行 匹配 。 
如 果 在 不 同 的 节点 上 有 重复 记录 ， 每 组 去 重 的 数据 可 能 会 比 实际 值 
要 大 ， 因 为 可 以 去 重 的 信息 并 没有 在 市 点 之 间 传 送 。 























实践 中 ， 快 速 的 近似 group-by 数 量 经 常 是 可 以 接受 的 。 如 果 这 不 可 
接受 ， 往 往 也 可 能 通过 仔细 地 配置 后 台 进 程 和 客户 端 应 用 来 取得 精确 结 











A 


你 也 可 以 产生 与 COUNT (DISTINCT “<attribute>) 等 价 的 结果 。 例 如 ， 
在 一 个 拍卖 网 站 上 ， 你 可 以 使 用 它 来 计算 每 个 分 类 里 卖家 的 精确 数目 。 


最 后 ，Sphinx 可 以 让 你 选取 一 个 标准 ， 然 后 用 这 个 标准 在 每 个 分 组 
里 找到 唯一 的 “最 合适 ”的 文档 。 例 如 ， 在 以 域 分 组 且 按 每 个 域 里 的 匹配 
数量 排序 结果 集 时 ， 可 以 从 每 个 域 里 选择 相关 度 最 高 的 文档 。 这 在 
MySQL 里 不 用 复杂 的 查询 是 做 不 到 的 。 


并 行 地 取 结 来 集 


Sphinx 可 以 让 你 从 相同 数据 中 同时 产生 几 份 结果 ， 同 样 是 使 用 固定 
量 的 内 存 。 作 为 对 比 ， 传 统 的 SQL 方法 要 么 运行 两 个 查询 〈 并 且 和 希望 两 
次 运行 中 某 些 数据 维持 在 缓存 中 ) ， 要 么 对 每 个 搜索 结果 集 创建 一 个 临 
时 表 ，Sphinx 的 方法 会 产生 显著 的 改进 。 











举例 来 说 ， 假 设 你 需要 针对 每 天 、 每 星期 、 每 月 定期 生成 该 段 时 间 
周期 里 的 报表 ， 要 用 MySQL 和 后 成 将 不 得 不 使 用 不 同 的 GROUP BY 子 句 
运行 三 次 查询 ， 对 源 数据 处 理 三 次 。 然 而 ， Sphinx 对 于 这 些 数据 只 要 处 
理 一 次 就 行 了 ， 然 后 就 可 以 并 行 地 生成 全 部 三 份 报表 。 





Sphinx 用 一 个 multi-query 机 制 来 完成 这 项 任务 。 不 是 一 个 接 一 个 地 
发 起 查询 ， 而 是 把 几 个 查询 做 成 一 个 批 处 理 ， 然 后 在 一 个 请 求 里 提交 。 





<?php 
$cl = new SphinxClient (); 
$cl->SetSortMode ( SPH_SORT_EXTENDED, "price desc" ); 


$cl->AddQuery ( "ipod" ); 
$cl->SetGroupBy ( "category_id", SPH _GROUPBY_ATTR, "@count de 
$cl->AddQuery ( "ipod" ); 


$cl->RunQueries (); 


Sphinx 会 分 析 这 个 碍 询 ， 识 别 出 可 以 合并 的 各 碍 询 部 分 ， 然 后 并 行 
地 执行 这 些 碍 询 。 





例如 ，Sphinx 可 能 注意 到 ， 排 序 和 分 组 的 模式 有 些 不 同 ， 而 查询 是 
相同 的 。 这 就 是 上 面 显示 的 示例 代码 里 的 情形 用 price 排 序 但 
用 category_id 分 组 。Sphinx 会 创建 几 个 排序 队列 来 处 理 这 些 查 询 。 当 
运行 这 些 查 询 时 ， 它 会 一 次 性 地 获取 到 行 ， 然 后 把 它们 提交 到 所 有 的 队 
列 里 。 与 一 个 接 一 个 运行 查询 相 比 较 ， 这 个 方法 消除 了 几 个 见 余 的 全 文 
检索 或 全 扫描 操作 。 











注意 并 行 结果 集 的 生成 ， 虽 然 这 是 常见 又 重要 的 优化 ， 但 是 ， 这 只 
是 更 一 般 化 的 multi-query 机 制 的 一 个 特例 。 它 不 是 唯一 可 能 的 优化 。 其 
中 的 指导 法 则 是 尽 可 能 地 把 多 个 查询 放 在 一 个 请 求 中 ， 这 通常 有 助 于 
Sphinx 开 展 内 部 优化 操作 。 即 使 Sphinx 无 法 并 行 处 理 这 些 查询 ， 也 可 以 
节省 网 络 往返 。 而 且 ， 如 果 将 来 Sphinx 加 入 更 多 的 优化 功能 ， 你 的 查询 
就 能 自动 地 使 用 到 它们 而 无 须 做 任何 修改 。 


扩展 


Sphinx 的 可 扩展 性 无 论 在 水 平方 向 〈 同 外 扩展 ) EET IA] C1) 
上 扩展 ) 上 都 非常 好 。 

















Sphinx 完全 可 以 在 各 机 器 之 间 分 布 。 我 们 提 到 过 的 用 户 案 例 都 能 受 
荔 于 路 CPU 的 分 布 工作 。Sphinx 的 搜索 后 台 进 程 (searchd)〉 文 持 特别 的 
分 布 式 索引 ， 它 知道 哪些 本 地 和 远程 的 索引 需要 查询 和 聚合 。 这 意味 着 
问 外 扩展 就 是 一 次 轻微 的 配置 更 改 。 你 只 需 在 各 个 节点 间 将 数据 分 区 ， 
然后 配置 主 节点 使 其 能 同 其 他 节点 并 行 地 发 起 查询 。 这 就 是 所 有 要 做 的 
事情 。 














你 也 能 向 上 扩展 ， 在 单独 的 机 器 上 增加 更 多 CPU 或 内 核 ， 从 而 提高 
响应 速度 。 为 了 达到 这 个 目的 ， 你 可 以 在 单 台 机 器 上 运行 好 几 个 searchd 
实例 ， 然 后 通过 分 布 式 索引 ， 从 另外 的 机 器 过 来 查询 它们 。 另 外 一 种 可 
选择 的 方法 是 ， 你 可 以 把 一 个 单独 的 实例 配置 为 能 与 它 自己 通信 ， 这 样 
并 行 的 “远程 ”查询 其 实 就 发 生 在 同一 台 机 器 上 ， 但 是 使 用 的 是 不 同 的 
CPU 或 内 核 。 











换 句 话说 ， 使 用 Sphinx 的 单个 查询 也 能 使 用 到 不 止 一 个 CPU (多 个 
并 发 查询 会 自动 使 用 多 个 CPU) 。 这 跟 MySQL 有 显著 的 区 别 ，MySQL 
的 一 个 查询 只 能 使 用 到 一 个 CPU， 无 论 有 多 少 个 CPU 可 供 使 用 。 男 外 ， 
Sphinx 在 并 发 执行 查询 时 不 需要 任何 同步 ， 这 就 避免 了 使 用 互 斥 体 〈 一 
种 同步 机 制 ) 。 而 互 斥 体 正 是 MySQL 在 多 CPU 环境 下 才 会 出 现 的 声名 
狼藉 的 性 能 瓶颈 之 一 。 














同上 扩展 的 另 一 个 重要 方面 是 扩展 磁盘 WO。 不 同 的 索引 (包括 部 
分 更 大 型 的 分 布 式 索 引 ) 能 够 轻松 地 放 在 不 同 的 物理 磁盘 或 RAID 分 卷 
上 ， 以 提高 啊 应 速度 和 吞吐 量 。 这 个 方法 的 一 部 分 好 处 跟 MySQL 5.1 的 
分 片 表 一 样 ， 后 者 能 将 数据 分 片 存 储 到 不 同 的 位 置 上 。 不 过 ， 分 布 式 索 
引 也 有 一 些 比 分 片 表 更 好 的 优点 。Sphinx 使 用 分 布 式 索引 不 仅 可 以 分 散 
负载 ， 还 能 并 行 地 处 理 一 个 查询 的 各 个 部 分 。 相 比 之 下 ，MySQL 的 分 
片 表 能 通过 对 分 片 的 剪 枝 来 优化 一 些 查询 〈 并 不 是 所 有 的 ) ， 但 查询 的 

















处 理 是 不 能 并 行 的 。 即 使 Sphinx 和 MySQL 的 分 片 都 能 提高 查询 的 吞吐 
量 ， 但 如 果 碍 询 是 IO 密集 的 ， 则 可 以 使 用 Sphinx 让 所 有 得 询 的 啊 应 速度 
得 到 线性 的 提高 ， 而 MySQL 分 片 只 能 对 那些 可 采用 前 去 整个 分 区 的 查 
询 才 能 改善 延 时 。 








分 布 式 搜索 的 工作 流程 非常 直观 。 


. 向 所 有 远程 服务 器 发 出 远程 查询 。 
. 执行 连续 的 本 地 索引 搜索 。 

| 从 每 个 远程 服务 器 上 读 取 部 分 搜索 结果 。 

.将 所 有 局 部 搜索 结果 合并 成 最 终结 果 集 ， 并 将 它 返回 给 客户 端 。 
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行 搜 索 。 如 果 有 多 个 物理 磁盘 驱动 器 和 多 个 CPU 内 核 ， 那 么 并 发 查询 就 
能 互 不 妨碍 地 执行 。 你 可 以 假装 有 一 些 索引 是 远程 的 ， 然 后 配置 searchd 
联系 自身 ， 从 而 在 同一 合 机 器 上 发 起 并 行 碍 询 。 


index distributed_sample 


{ 

type = distributed 

local = chunk1 # resides on HDD1 

agent = localhost:3312:chunk2 # resides on HDD2, searchd 
} 


从 客户 端的 视角 来 看 ， 分 布 式 索引 跟 本 地 索引 完全 没什么 两 样 。 这 
就 允许 你 通过 使 用 市 点 来 代理 其 他 的 节点 集 的 方式 ， 来 创建 出 一 榜 分 布 
ARIKA”. 例如， 第 一 级 市 点 可 以 代理 一 定量 的 第 二 级 节点 的 查询 
请 求 ， 结 果 束 是 ， 可 以 以 任意 的 路 笃 ， 本 地 搜索 它们 本 里， 或 传递 查询 





到 其 他 节点 。 


聚合 分 片 数据 


构建 一 个 可 扩展 的 系统 第 第 要 涉及 数据 在 不 同 物理 MySQL 服 务 器 
Apr OK) 。 这 在 第 11 章 里 已 经 深入 讨论 过 了 。 


当 数 据 以 合适 的 粒度 分 片 后 ， 即 使 只 是 使 用 选择 性 的 WHERE (这 
应 该 非常 快 ) 获取 几 行 数据 的 查询 也 意味 着 要 关联 到 许多 服务 器 ， 检 查 
错误 ， 以 及 在 应 用 里 将 搜索 结果 合并 在 一 起 。Sphinx 减 轻 了 这 个 问题 的 
痛 否 ， 因 为 所 有 必要 的 功能 都 在 后 合 搜索 进程 里 实现 了 。 








考虑 这 样 一 个 例子 ， 有 一 个 1TB 大 小 的 表 ， 其 中 有 10 亿 篇 博客 文 
章 ， 通 过 用 户 ID 分 片 到 10 个 物理 MySQL 服 务 器 上 ， 这 样 给 定 用 户 的 文 
章 总 是 在 同一 台 服 务 器 上 。 只 要 查询 是 限制 在 单个 用 户 上 ， 一 切 都 很 
好 : 我 们 根据 用 户 ID 先 选 定 服务 器 ， 然 后 照常 运作 。 








现在 假定 我 们 要 实现 一 个 归档 分 页 功能 来 显示 该 用 户 的 所 有 朋友 发 
表 的 文章 。 我 们 怎么 按 发 布 日 期 排序 显示 “其 他 sysbench 特 性 ”的 第 981 一 
1000 个 条 目 呢 ? 大 量 朋友 的 数据 很 可 能 是 在 不 同 的 服务 器 上 。 如 果 仅 有 
10 个 朋友 ， 那 就 有 约 90% 的 可 能 会 用 到 8 台 以 上 服务 器 ， 如 果 是 20 个 朋 
友 ， 这 个 可 能 性 就 提高 到 了 99% 。 因 此 ， 对 于 大 多 数 查 询 而 言 ， 我 们 需 
要 关联 到 所 有 服务 上 器。 更 糟 料 的 是 ， 我 们 还 要 从 每 台 服 务 器 上 拉 1000 篇 
文章 ， 然 后 在 应 用 程序 里 进行 排序 。 按 照 本 书 前 面 所 提供 的 建议 ， 我 们 
将 数据 裁减 到 只 需要 文章 ID 和 时 间 戳 。 但 是 ， 仍 然 有 10 000 条 记录 要 在 
应 用 程序 里 排序 。 许 多 现代 脚本 语言 单 在 排序 这 一 步骤 上 就 会 消耗 掉 大 
量 的 CPU 时 间 。 除 此 以 外 ， 我 们 或 者 要 按 顺 序 从 每 个 服务 器 上 获取 结果 


























记录 〈 这 会 很 慢 ) ， 或 者 要 编写 一 些 代 人 码 构造 并 行 查 询 线程 《这 很 难 实 
现 和 维护 ) 。 














在 这 样 的 情形 下 ， 采 用 Sphinx 将 比重 新 发 明 轮 子 显 得 更 有 意义 。 在 
本 例 中 所 要 做 的 事情 就 是 建立 儿 个 Sphinx 实 例 ， 从 每 个 表 里 映 射出 经 常 
访问 的 文章 属性 一 一 在 这 里 就 是 文章 ID、 用 户 ID 和 时 间 惟 ， 然 后 在 主 
Sphinx 实 例 上 查询 第 981 一 1000 条 记录 ， 并 按照 发 布 日 期 排序 ， 全 部 算 
起 来 大 概 是 3 行 代码 。 这 是 更 明智 的 扩展 方法 。 
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Sphinx 是 一 个 独立 的 程序 集 。 两 个 主要 程序 如 下 。 
indexer 


这 个 程序 用 来 从 各 种 特定 的 资源 上 【例如 MySQL 的 查询 结 
R) 获取 文档 ， 并 据 此 创建 全 文 索引 。 这 是 一 个 后 台 批 处 理 任 务 ， 
网 站 一 般 会 定时 运行 它 。 





searchd 





这 是 一 个 后 台 进 程 ， 用 于 查询 indexer 构 建 的 索引 。 它 为 应 用 程 
序 提供 运行 时 支持 。 





Sphinx 的 发 布 包 里 还 包含 有 多 种 编程 语言 的 searchd 原 生 客户 端 
API《〈 在 本 书写 作 时 ， 这 些 语言 包括 PHP、Python、Perl、Ruby 和 
Java) ， 以 及 在 MySQL 5.0 及 以 上 版 本 中 作为 插件 式 存储 引擎 实现 的 客 
户 端 SphinxSE。 这 些 API 和 SphinxSE 都 可 供 客户 端 应 用 连接 到 searcha， 
然后 把 查询 语句 传递 过 去 ， 最 终 取 回 搜索 结果 。 








每 一 个 Sphinx 全 文 索 引 都 可 以 比 作 数据 库 里 的 一 个 表 ， 与 表 里 放 置 
的 一 行 行 数据 不 同 的 是 ，Sphinx 索 引 包 含 的 是 文档 。 (Sphinx 也 有 一 个 
单独 的 数据 结构 多 值 属性 ， 下 文 会 讲 到 。) 每 一 个 文档 都 有 一 个 唯 
一 的 32 位 或 64 位 整数 标识 符 ， 取 上 自 数据 表 里 的 索引 字段 〈 例 如 ， 从 主键 
列 中 取 ) 。 另 外 ， 每 一 个 文档 拥有 一 个 或 多 个 全 文字 段 〈 每 一 个 都 对 应 
于 数据 库 里 的 一 个 文本 字段 ) 和 数值 属性 。 就 像 一 个 数据 表 一 样 ， 








Sphinx 索 引 在 所 有 文档 里 都 有 着 一 样 的 字段 和 属性 。 表 F-1 显 示 了 数据 
表 和 Sphinx 索引 的 相似 之 处 。 


表 F-1: 数据 库 结构 和 相应 的 Sphinx 结 构 


数据 库 结 构 Sphinx 结 构 


CREATE TABLE documents ( index documents 
id int(11) NOT NULL auto_increment, document ID 
title varchar(255), title field, full- 
content text, content field, ful 
group_id int(11), group_id attribute 
added datetime, added attribute, s 


PRIMARY KEY (id) 
); 








Sphinx 不 存储 数据 库 中 的 文本 字体 ， 只 使 用 它们 的 内 容 来 创建 一 个 
搜索 索引 。 


EAS 过 综述 


Sphinx 安 装 非常 直观 ， 一 般 包 括 如 下 步骤 。 
1. 从 源码 编译 程序 。 
$ configure && make && make install 


2. 创建 一 个 配置 文件 : KE MERA SCR I] o 
3. 初始 索引 化 。 


4. 启动 searchd。 
在 这 之 后 ， 客 户 程 序 即 拥有 查询 功能 。 


<?php 

include ( 'sphinxapi.php' ); 

$cl = new SphinxClient (); 

$res = $cl->Query ( 'test query', 'myindex' ); 
// use $res search result here 


?> 





唯一 还 没 做 的 事情 就 是 定时 运行 pndexer 来 更 新 全 文 索引 数据 。 在 重 
ZR S| AIR, searchd 治 前 正在 使 用 的 索引 还 是 全 部 可 以 使 用 
的 : indexer 会 检测 到 索引 正在 使 用 ， 然 后 创建 一 个 “影子 ?索引 来 代 蔡 。 
在 索引 创建 完 之 后 ， 它 会 通知 searchd 使 用 这 个 完成 的 副本 。 





全 文 索引 存储 在 文件 系统 中 《保存 路 径 在 配置 文件 里 指定 ) ， 存 储 
3 BERS RTC, 这 种 形式 不 适合 做 增 量 更 新 。 通 常 的 更 新 索 
引 的 方法 就 是 全 部 重建 。 这 个 问题 没有 看 起 来 那么 大 ， 原 因 有 以 下 几 
Kile 





。 创建 索引 的 速度 很 快 。 在 现在 的 硬件 设备 上 ，Sphinx 索 引 普通 文本 
(不 带 HTML 标 记 ) 的 速度 是 4 一 8MB/s。 
。 可 以 把 数据 分 割 到 几 个 索引 里 ， 下 一 小 节 里 会 讲 到 。 每 次 运 
行 indexer 时 只 对 需要 更 新 的 那 部 分 数据 进行 索引 any 
。 ERIR S| BE A EE” —— ET ASR E ECO TT 49 EY , 
这 能 提高 搜索 速度 。 
。 数值 属性 可 以 直接 更 新 ， 无 须 重 建 全 部 索引 。 








在 未 来 的 版 本 里 ， 还 会 提供 一 个 额外 的 索引 后 端 ， 它 将 文 持 实时 的 
索引 更 新 。 


典型 的 分 区 使 用 


下 面 详细 讨论 分 区 。 最 简单 的 分 区 模式 是 main+delta 方 法 ， 对 一 个 
文档 集 创建 两 个 索引 。main 索 引 全 部 文档 集 ， 而 delta 只 索引 目 上 次 main 
索引 创建 之 后 发 生变 更 的 文档 。 


这 个 模式 与 许多 数据 变更 模式 完全 吻合 。 论 坛 、 博 客 、 电 子 邮件 和 
新 闻 归 档 ， 以 及 垂直 索引 引擎 都 是 很 好 的 例子 。 那 些 存储 库 的 大 部 分 冷 
数据 目 创 建 后 从 不 更 新 ， 只 有 很 小 一 部 分 的 热 数据 经 党 改变 或 增加 。 这 
意味 着 delta 索 引 很 小 并 且 可 以 在 需要 时 重建 〈 例 如 ， 每 隔 1 一 15 分 钟 一 
UR) 。 这 相当 于 只 对 新 插入 的 行 做 索引 。 








你 不 需要 重建 驼 引 来 改变 与 文档 关联 的 属性 一 一 可 以 通过 searchd 在 
线 做 。 可 以 通过 简单 地 在 main 索 引 上 设置 “deleted” 特 性 来 标记 行 已 删 
除 。 因 此 ， 可 以 在 main 索 引 中 对 文档 标记 这 个 属性 来 处 理 更 新 ， 然 后 重 
建 delta 索 引 。 对 所 有 未 标记 为 “deleted” 的 文档 搜索 会 返回 正确 的 结果 
集 。 








注意 ， 索 引文 件 可 能 来 自任 何 SELECT 语 句 的 结果 ; 不 必 来 自 单个 
SQL 表 。 对 SELECT 语句 没有 限制 。 这 意味 着 可 以 在 数据 库 中 建 索引 之 
前 预 处 理 结果 。 普 通 预 处 理 例子 包括 : 与 其 他 表 的 联接 ， 在 线 创建 额外 
的 字段 ， 在 索引 时 排除 某 些 字段 ， 以 及 生成 一 些 值 。 
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别 的 功能 特性 


除 “ 仅 仅 ? 索 引 和 搜索 数据 库 内 容 外 ，Sphinx 还 提供 几 个 其 他 的 功 
下 面 是 其 中 最 重要 的 部 分 。 





搜索 和 排 位 算法 记录 词 的 位 置 ， 并 且 碍 询 阶 段 接 近 的 文档 内 容 ， 也 
会 被 计算 在 内 。 

可 以 把 数值 属性 绑 定 到 文档 中 ， 包 括 多 值 属性 。 

可 以 按 属 性 值 排 序 、 过 滤 和 分 组 。 

可 以 创建 与 搜索 得 询 关 键 字 高 亮 的 文档 片段 。 

可 以 跨 多 人 台 机 器 做 分 布 式 搜索 。 

可 以 优化 查询 ， 从 相同 的 数据 中 产生 几 个 结果 集 。 

可 以 从 MySQL 中 使 用 SphinxSE 来 访问 搜索 结果 。 

可 以 很 好 地 调节 Sphinx 对 服务 器 负载 的 影响 。 





我 们 在 前 面 已 经 涉及 了 其 中 部 分 特性 。 本 市 将 介绍 剩 下 的 几 个 特 


义 词 排 位 


Sphinx 能 记 住 每 一 个 文档 内 词语 的 位 置 ， 束 像 其 他 开源 全 文 检索 系 





统 那 样 。 但 与 它们 不 同 的 是 ， 它 使 用 位 置 对 匹配 度 进行 排序 ， 返 回 更 相 
关 的 结 


统 只 











有 许多 因素 会 影响 到 文档 的 最 终 排 位 。 为 了 计算 排 位 ， 其 他 许多 系 
使 用 了 关键 字 的 频 度 : 每 一 个 关键 字 的 出 现 次 数 。 几 乎 被 所 有 全 文 


检索 系统 使 用 的 经 典 的 BM25 权 重 函 数 出 就 是 把 更 多 的 权重 分 给 这 样 一 
些 词语 ， 它 们 或 者 在 特定 的 被 检索 文档 里 常常 出 现 ， 或 者 很 少 在 整个 文 
档 集 里 出 现 。BM25 返 回 的 结果 通常 束 是 最 终 的 排 位 值 。 





与 之 不 同 ，Sphinx 也 计算 查询 短语 的 近似 度 ， 就 是 文档 内 包含 的 查 
询 子 短语 的 最 大 长 度 ， 以 词语 为 计数 单位 。 举 例 来 说 ， 用 短语 “John 
Doe Jr” 在 带 有 文本 “John Black, John White Jr, and Jane Dunne” 的 文档 里 
搜索 时 ， 会 产生 一 个 1 的 短语 近似 上 度 ， 因 为 按 人 查询 序列 ， 没 有 两 个 词语 
一 同 出 现在 文档 里 。 如 果 文 档 的 文本 是 “Mr. John Doe Jr and friends”, Is 
就 是 3 的 近似 度 ， 因 为 这 三 个 查询 词语 依次 出 现在 文档 里 。 而 文本 “John 
Gray, Jane Doe Jr” 会 生成 2 的 近似 度 ， 这 归功 于 “Doe Jr” 但 询 子 短语 。 


在 默认 情况 下 ，Sphinx 首 先是 用 短语 近似 度 排序 的 ， 其 次 才 是 经 典 
的 BM25。 这 意味 着 逐 字 的 查询 引用 可 以 保证 非常 靠 前 ， 而 由 一 个 单独 
的 词语 引用 刚好 在 它们 下 面 ， 等 等 。 














短语 近似 度 是 何 时 以 及 如 何 影响 结果 的 呢 ? 设想 要 在 1 000 000 页 的 
文本 里 搜索 短语 “To be or not to be”。Sphinx 会 将 逐 字 引用 的 页 面 放 在 搜 
索 结果 的 最 前 面 ， 而 其 他 基于 BM25 的 系统 会 首先 返回 那些 包含 了 最 多 
的 “to”、“be”、“or” 和 “not” 的 页 面 一 一 那些 包含 了 一 个 确切 引用 的 页 面 
会 只 因 里 面 的 “to" 不 够 多 ， 就 被 埋没 在 搜索 结 末 的 深 处 了 。 


当今 许多 主流 的 web 搜索 引擎 用 关键 字 位 置 对 结果 进行 排 位 也 是 一 
样 的 原理 。 在 Google 上 搜索 一 个 短语 ， 它 就 会 把 最 完美 或 接近 完美 包含 
匹配 短语 的 文档 放 在 结果 的 最 上 面 ， 后 面 是 “ 词 袋 文档。 











然而 ， 分 析 关 键 词 的 位 置 会 需要 额外 的 CPU 时 间 ， 有 时 可 能 会 出 于 
性 能 考虑 而 跳 过 这 一 步 。 在 有 些 情况 下 ， 短 语 排 位 也 会 产生 不 受 欢迎 


的 、 出 乎 意料 的 结果 。 例 如 ， 在 云 里 搜索 标签 时 没有 关键 字 位 置 会 更 好 
一 些 : 要 查询 的 tag 在 文档 里 是 否 相 邻 也 没什么 区 别 。 





为 了 顾及 灵活 性 ，Sphinx 提 供 了 排 位 模式 的 选择 。 除 了 默认 的 近似 
度 加 BM25 之 外 ， 还 能 选用 多 种 其 他 类 型 的 方法 ， 包 括 只 有 BM25 权 值 
的 、 完 全 禁用 权 值 的 (如 果 不 是 使 用 排 位 做 排序 ， 它 能 提供 很 好 的 优 
NC) Se 


文 持 属性 


每 一 个 文档 都 可 以 包含 无 限 数目 的 数值 属性 。 属 性 是 用 户 指定 的 ， 
能 够 根据 特定 任务 的 需要 包含 任何 额外 的 信息 。 相 应 的 例子 包括 : 一 篇 
博客 文章 的 作者 ID、 明 细 表 里 一 个 项 目的 价格 、 一 个 分 类 ID， 等 等 。 





属性 依靠 额外 的 过 滤 、 排 序 和 对 搜索 结果 进行 分 组 ， 以 提高 全 文 搜 
索 的 效率 。 在 理论 上 上， 它们 可 以 被 存储 在 MySQL 里， 而 在 执行 搜索 时 
再 取出 来 。 但 在 实际 应 用 中 ， 如 果 全 文 检索 要 从 MySQL 里 定位 几 百 或 
几 千 行 数据 (这 也 不 算 多 ) ， 检 索 它 们 将 慢 得 不 可 接受 。 





Sphinx 文 持 两 种 存储 属性 的 方式 内 联 到 文档 列表 或 者 放 在 外 部 单 
独 的 文件 里 。 内 联 要 求 所 有 属性 值 要 在 各 索引 里 存储 多 次 ， 每 当 有 文档 
ID 存 入 就 会 有 一 次 。 这 会 增加 索引 的 大 小 ， 还 会 提升 IO 数量 ， 但 也 会 
减少 RAM 的 使 用 。 在 外 部 对 属性 进行 排序 ， 需 要 在 searchd 局 动 时 把 它 
们 预 加 载 到 RAM 里 。 











属性 通常 都 能 被 放 入 RAM 中 ， 因 此 ， 常 见 的 做 法 束 是 把 它们 存储 
在 外 部 。 这 可 以 使 过 小 、 排 序 和 分 组 更 加 快速 ， 因 为 访问 这 些 数 据 就 相 


当 于 是 一 次 快速 的 内 存 内 查找 。 并 且 ， 只 有 存放 于 外 部 的 属性 才能 在 运 
行 时 被 更 新 。 内 联 存储 应 该 只 在 没有 足够 的 空闲 RAM 来 存储 属性 数据 
时 使 用 。 





Sphinx 也 支持 多 值 属 性 (MVA) 。MVA 的 内 容 由 一 个 任意 长 的 整 
数值 列表 组 成 ， 每 个 整数 值 对 应 一 个 文档 。 那 些 很 好 地 利用 了 MVA 的 
例子 有 标签 ID 列表 、 产 品 的 分 类 和 访问 控制 列表 。 


在 全 文 搜索 引擎 里 拥有 对 属性 值 的 访问 权 可 以 让 Sphinx 在 搜索 时 尽 
可 能 早 地 过 滤 和 剔除 候选 匹配 项 。 从 技术 上 说 ， 过 滤 检 查 发 生 在 校 验 完 
文档 是 否 包 含 了 所 有 需要 的 关键 字 之 后 ， 但 又 在 某 个 计算 量 很 大 的 计算 
过 程 〈 例 如 排名 ) 之 前 。 因 为 有 了 这 些 优化 ， 使 用 Sphinx 把 过 滤 和 排序 
整合 到 全 文 搜索 里 要 比 在 Sphinx 中 搜索 而 在 MySQL 中 过 滤 结 果 快 10 一 
100 倍 。 








Sphinx 文 持 两 种 类 型 的 过 小 ， 这 与 5QL 里 简单 的 WHERE 条 件 很 相 
似 。 


。 一 个 属性 值 匹 配 一 个 特定 范围 内 的 值 〈 跟 BETWEEN 子 句 或 数值 比 
较 相 似 ) 。 
。 一 个 属性 值 匹 配 一 个 特定 的 值 集 合 〈 跟 INO 列 表 相 似 ) 。 


如 果 过 滤器 有 固定 数量 的 值 〈 用 "集合 "过 滤器 代 蔡 “范围 ?过 沽 
at) ， 并 且 这 些 值 是 可 选择 的 ， 那 么 ， 用 " 伪 关 键 字 ?” 蔡 换 邱 整 型 值 ， 并 
用 全 文 内 容 而 非 属 性 的 方式 索引 ， 这 样 是 很 有 意义 的 。 这 同样 适用 于 普 





通 的 数值 属性 和 多 值 属 性 。 在 下 文 里 我 们 会 看 到 一 些 关 于 如 何 去 做 的 例 
to 


Sphinx 能 够 使 用 过 滤器 来 优化 全 扫描 。 它 能 记 住 在 一 小 段 连续 的 行 
块 (默认 是 128 行 ) 中 的 最 小 和 最 大 属性 值 ， 根 据 过 滤 条 件 很 快 地 丢弃 
掉 整 个 块 。 行 是 按照 文档 ID 升序 存储 ， 因 此 ， 这 个 优化 工作 最 适合 那些 
跟 ID 关 联 紧密 的 列 。 例 如 ， 如 果 有 一 个 行 插入 时 间 戳 ， 它 会 随 着 ID 一 起 
增长 ， 那 么 ， 在 这 个 时 间 戳 上 做 带 有 过 滤 的 全 扫描 会 非常 快 。 


SphinxSE 可 插 拔 存储 引擎 


接收 到 来 自 Sphinx 的 全 文 搜索 结果 之 后 ， 几 乎 总 会 有 一 些 涉 及 
MySQL 的 额外 工作 要 做 一 一 从 最 低 限 度 来 讨 ，Sphinx 索 引 里 没有 存储 的 
文本 列 的 值 必 须 从 MySQL 里 取得 。 因 此 ， 经 常 需要 把 Sphinx 的 搜索 结果 
和 其 他 MySQL 表 联接 。 


尽管 可 以 把 搜索 结果 里 的 文档 ID 写 在 一 条 查询 语句 中 发 送 给 
MySQL， 但 是 ， 这 种 方法 会 导致 既 不 太 简洁 也 不 太 高 效 的 代码 。 对 于 
量 非常 大 的 场景 ， 应 该 考虑 使 用 SphinxSE， 这 是 一 个 可 编译 到 MySQL 
5.0 或 更 新 的 版 本 里 的 可 插 拔 存储 引擎 ， 也 可 作为 一 个 插件 加 载 到 
MySQL 5.1 或 更 新 的 版 本 里 。 


SphinxSE 可 以 让 程序 员 从 MySQL 里 面 查 询 searchd 和 访问 搜索 结 
果 。 用 法 非常 简单 ， 只 要 在 创建 表 时 加 上 ENGINE=SPHINX 子 句 〈 还 有 
一 个 可 选 的 CONNECTION 子 句 ， 用 于 Sphinx 服 务 器 不 在 默认 路 径 时 重 
新 定位 服务 器 ) ， 然 后 就 可 以 在 表 上 运行 查询 了 。 





mysql> CREATE TABLE search_table ( 
-> id INTEGER NOT NULL, 
-> weight INTEGER NOT NULL, 
-> query VARCHAR(3072) NOT NULL, 
-> group_id INTEGER, 
-> INDEX( query) 
-> ) ENGINE=SPHINX CONNECTION="Sphinx://localhost :3312/test 


Query OK, © rows affected (0.12 sec) 


mysql> SELECT * FROM search_table WHERE query='test;mode=all1' 
FOOT IO IOI III I J. poy RII ICI IR IA A A IK Ik 
id: 123 
weight: 1 
query: test;mode=all 
group_id: 45 


1 row in set (0.00 sec) 


每 个 SELECT 以 WHERE 子 句 中 的 query 列 的 方式 传递 给 Sphinx 碍 询 。 
Sphinx searchd 服 务 器 返回 查询 结果 ， 然 后 SphinxSE 存储 引擎 会 把 它们 
翻译 成 MySQL 的 结果 返回 给 该 SELECT 语句 。 


其 中 的 碍 询 可 能 会 包含 JOIN， 把 别 的 存储 引擎 上 的 其 他 表 联 接 进 
来 。 


SphinxSE 文 持 大 部 分 原本 在 API 里 才 可 用 的 搜索 选项 。 你 可 以 通过 
插入 额外 子 句 到 查询 字 符 串 的 方式 设 定 类 似 过 小 和 范围 限制 选项 。 


mysql> SELECT * FROM search_table WHERE query='test;mode=all1; 


-> filter=group_id,5,7,11;maxmatches=3000' ; 


通过 API 返 回 的 关于 每 一 个 查询 和 每 一 个 词语 的 统计 信息 也 可 以 用 


SHOW STATUS 访问 。 


mysql> SHOW ENGINE SPHINX STATUS \G 

FO IOI ICICI ICI IO III J, pow FI IO IO IO TI IOI A ak 
Type: SPH INX 
Name: stats 

Status: total: 3, total found: 3, time: 8, words: 1 

FOI IOI IOI ICI IOI IO III 9. pow FIO IOI TI IOI A I ak 
Type: SPHINX 
Name: words 

Status: test:3:5 


2 rows in set (0.00 sec) 


甚至 在 使 用 SphinxSE 的 时 候 ， 经 验 法 则 仍然 允许 searchd 执 行 排序 、 


过 小 和 分 组 一 一 也 就 是 说 ， 把 所 有 需要 的 子 句 加 到 查询 字符 串 里 ， 而 不 
是 使 用 WHERE、ORDER BY 和 GROUP BY。 这 对 于 WHERE 条 件 来 说 尤为 重要 ， 
其 原因 是 SphinxSE 仅 仅 是 searchd 的 一 个 客户 端 ， 而 不 是 一 个 全 能 的 内 藤 
搜索 库 。 因 此 ， 你 还 是 要 把 所 有 东西 都 传递 给 Sphinx 引 擎 以 获得 最 好 的 


TER 


ERIL 


局 级 性 能 控制 


ace 
m 


索引 和 搜索 操作 都 会 显著 地 加 重 搜索 服务 器 或 数据 库 服务 器 的 负 





昌 。 笠 运 的 是 ， 有 很 多 设置 可 用 以 限制 来 自 Sphinx 的 负载 。 


indexer 的 查询 会 引发 不 期 望 的 数据 库 端 负载 ， 它 们 或 者 是 因为 使 用 
到 的 锁 彻 抵 地 减 慢 了 MySQL 的 运转 速度 ， 或 者 只 是 因为 出 现 得 太 快 而 
与 其 他 并 发 查询 竞争 资源 。 








第 一 个 例子 就 是 MyISAM 的 一 个 声名 狠 糊 的 问题 ， 当 长 时 间 的 读 锁 
定 表 时 ， 会 影响 到 其 他 后 续 的 读 和 写 一 一 你 不 能 简单 地 在 生产 服务 器 上 
执行 SELECT * FROM big_table， 因 为 会 有 干扰 其 他 所 有 操作 的 风险 。 
为 了 绕 开 这 个 问题 ，Sphinx 提 供 了 区 间 查 询 。 与 配置 单个 巨大 但 询 不 
同 ， 你 可 以 指定 一 个 可 以 快速 计算 可 索引 的 行 区 间 的 查询 ， 以 及 为 外 一 
个 以 很 小 的 块 逐 批 往外 拉 数 据 的 查询 。 

















sql_query_range = SELECT MIN(id),MAX(id) FROM documents 
sql_range_step = 1000 
sql_query = SELECT id, title, body FROM documents \ 


WHERE id>=$start AND id<=$end 





这 个 特性 在 对 MyISAM 表 索引 的 时 候 非常 有 用 ， 但 也 应 该 考虑 到 使 
用 InnoDB 表 的 情况 。 虽 然 InnoDB 在 运行 一 个 大 数据 量 SELECT 的 时 候 不 
会 锁定 表 ， 也 不 会 延误 其 他 查询 的 执行 ， 但 是 ， 由 于 它 的 MVCC 架 构 ， 
它 还 是 会 使 用 到 很 多 的 机 器 资源 。1 ”000 个 多 版 本 的 事务 ， 每 个 事务 会 
涉及 1 000 行 数据 ， 总 开销 也 小 于 单独 一 个 要 长 时 间 运 行 的 涉及 100 万 行 
数据 的 事务 。 


第 二 种 加 重负 载 的 可 能 发 生 在 indexer 能 够 比 MySQL 更 快 地 处 理 数 
据 时 。 在 这 样 的 情形 下 ， 也 应 该 使 用 范围 查询 。sql_ranged_throttle 
选项 会 强制 indexer 在 后 续 的 查询 步 又 之 间 休 有 眠 给 定 的 一 段 时 间 (以 时 秒 
计算 ) ， 这 虽然 会 增加 索引 建立 的 时 间 ， 但 也 会 减轻 MySQL 的 负担 。 


WRA EENE, IRE Ae IE SE, BCE Sphinx LA iA 3] 
相反 效果 : 为 了 缩短 索引 建立 时 间 ， 就 将 更 多 的 负载 加 到 MySQL 上 
面 。 当 indexer 和 数据 库 之 间 的 连接 是 100MB， 行 都 被 很 好 地 压缩 时 《〈 典 
型 的 文本 数据 ) ，MySQL 的 压缩 协议 能 缩短 整体 的 索引 时 间 。 随 之 而 
来 的 是 另外 一 个 开销 增加 了 : 为 了 压 缮 和 解压 缩 网 络 上 传输 的 行 数 据 ， 
MySQL 端 和 indexer 端 各 自 都 会 使 用 到 更 多 的 CPU 时 间 。 但 是 ， 整 个 索 
引 时 间 因 为 减少 了 网 络 数据 流量 而 能 够 缩短 20% 一 30% 。 


集群 上 的 搜索 偶尔 也 会 遇 到 过 载 问题 ， 因 此 ，Sphinx 提 供 了 一 些 方 
法 以 避免 searchd 跑 飞 。 


首先 ，max_children 选 项 可 以 简单 地 限制 一 下 能 够 并 发 运行 的 和 查询 
数量 ， 当 达到 极限 时 告诉 客户 端 重 试 。 


其 次 ， 还 有 碍 询 级 别 的 限制 。 可 以 设 定 查 询 运 行 的 时 候 ， 或 者 是 在 
找到 预定 个 数 的 匹配 项 时 就 停止 ， 或 者 是 用 完 指定 长 度 时 间 之 后 就 停 
止 。 这 两 个 条 件 分 别 通 过 调用 SetLimits() 和 SetMaxQueryTime () AP1 来 
实现 。 这 是 针对 每 一 个 查询 设置 的 ， 所 以 ， 可 以 确保 更 重要 的 查询 总 是 
能 够 彻底 完成 。 











最 后 ， 定 时 运行 indexer 会 引起 额外 VO 的 突 增 ， 随 之 会 影响 到 
searchd 辣 时 性 地 速度 减 慢 。 为 了 防止 这 种 情况 发 生 ，Sphinx 里 有 相应 的 
选项 来 限制 indexer 的 磁盘 /JO。max_iops 强 加 了 两 次 WO 操作 之 间 的 最 小 
延迟 时 间 ， 以 确保 每 一 秒 里 不 会 有 超过 max_iops 的 磁盘 操作 会 被 执行 。 
但 是 ， 有 时 一 个 单独 的 操作 也 会 很 占 时 间 ， 比 如 有 一 个 100MB 数 据 量 的 
read() 调 用 。max_iosize 选 项 会 处 理 这 种 情况 ， 它 可 以 保证 每 一 次 磁盘 
读 或 者 写 的 长 度 都 被 限制 在 指定 的 范围 之 内 。 更 大 的 操作 会 被 自动 地 分 
解 成 小 型 操作 ， 然 后 ， 这 些小 型 的 操作 由 max_iops 设 置 控制 。 





实际 应 用 条 例 


每 个 描述 的 特性 都 可 以 在 产品 部 署 中 成 功 找到 。 下 面 的 小 节 回顾 了 
几 个 现实 的 Sphinx 部 署 ， 简 要 描述 了 网 站 的 情况 和 一 些 实现 细节 。 


Mininova.org 上 的 全 文 搜索 


Mininova Chttp://www.mininova.org) 是 一 个 流行 的 BT 种 子 搜 索引 
擎 ， 它 清楚 地 展示 了 如 何 “ 仅 仅 ” 优 化 全 文 检 索 。Sphinx 蔡 代 了 几 个 基于 
MySQL 主 从 复制 的 备 库 内 建 的 全 文 罕 引 的 MySQL， 因 为 它们 不 能 很 好 
地 处 理 负 载 。 蔡 换 之 后 ， 搜 索 服 务 器 负载 很 轻 ; 当前 平均 负载 在 
0.3~04。 








数据 库 规 模 和 负载 量 如 下 。 








e 网 站 的 数据 库 很 小 ， 大 概 30 万 ~50 万 条 记录 ，300MB~500MB 索 引 


i=! 


里 o 
。 网 站 的 负载 非常 高 ， 在 写作 本 书 的 时 候 每 天 大 约 800 万 ~1000 万 次 查 
询 。 








数据 绝 大 部 分 是 由 用 尸 提供 的 文件 名 ， 管 第 没有 合适 的 标记 香 写 。 
因为 这 个 原因 ， 和 采用 了 前 绥 索 引 而 不 是 整 词 索 引 。 纺 果 索 引 比 不 这 样 做 
要 大 好 几 倍 ， 但 仍然 足够 小 ， 可 以 快速 地 构建 ， 并 且 数 据 可 以 高 效 地 绥 
FF o 




















对 1 OOO sec FE HY Et Ve FY HR RA REMH vie FER AAH P 





有 大 概 20%~30% 由 缓存 提供 服务 。 由 于 “长 尾 * 查 询 分 布 ， 缓 存 再 大 一 
些 并 不 会 起 太 多 作用 。 


为 了 局 可 用 ， 网 站 使 用 两 个 服务 占 和 一 个 完整 的 全 文案 引 复 制服 务 
船 。 索 引 每 隔 几 分 钟 从 头 重建 。 建 索引 耗 时 小 于 一 分 钟 ， 因 此 构建 更 复 
杂 的 模式 没有 意义 。 


下 面 是 从 这 个 案例 中 学 到 的 : 


。 在 应 用 中 缓存 结果 非常 有 帮助 。 

© 巨大 的 缓存 可 能 没有 必要 ， 甚 至 对 繁忙 的 应 用 也 是 如 此 。 只 需要 
1000~10000 个 条 目 就 足够 了 。 

。 对 于 近 1GB 大 小 的 数据 库 ， 简 单 周 期 性 地 重建 索引 而 不 是 创建 更 复 
杂 的 模式 是 没有 问题 的 ， 即 使 对 于 繁忙 的 网 站 也 是 如 此 。 











BoardReader.com 上 的 全 文 搜索 








Mininova 是 个 负载 格外 高 的 项 目 案例 一 一 数据 量 不 是 太 多 ， 但 有 许 
多 对 数据 的 查询 。BoardReader (http:/www.boardreader.com) 恰好 相 
R: 一 个 论坛 搜索 引擎 ， 在 非常 大 的 数据 集中 执行 非常 少量 的 查询 。 
Sphinx 蔡 代 了 商业 的 全 文 搜索 引擎 ， 对 1GB 的 数据 集合 每 次 查询 将 需 
10s。Sphinx 可 使 BoardReader 在 数据 量 和 得 询 的 吞吐 量 上 很 好 地 扩展 。 











。 在 数据 库 中 有 10 亿 个 文档 和 1.5TB 的 文本 。 
。 有 大 概 50 万 个 页 面 视 图 ， 每 天 的 查询 量 在 70 万 ~100 万 。 








在 写作 本 书 的 时 候 ， 搜 索 集 群 由 6 台 服 务 器 组 成 ， 每 台 有 4 个 逻辑 
CPU 〔〈 两 个 Xeon 双 核 ) ， 有 16GB 的 RAM 和 0.5TB 的 磁盘 空间 。 数 据 库 
本 身 存 储 在 一 个 分 开 的 集群 上 。 搜 索 集 群 只 用 来 做 索引 和 搜索 。 


6 台 服 务 器 中 每 台 有 4 个 searchd 实 例 ， 因 此 所 有 4 个 核 都 被 使 用 。4 个 
实例 其 中 之 一 聚集 了 其 他 三 个 上 的 结果 。 总 共 24 个 searchd 实 例 。 数 据 在 
它们 中 间 平 均 分 布 。 每 个 searchd 副 本 携带 几 个 索引 ， 大 概 超过 总 数据 的 
1/24 (KAI60GB) ) 。 


来 目 6 个 “第 一 层 ”searchd 贡 点 的 搜索 结果 由 另外 一 个 运行 在 web 服 
Far HY Sia MY searchdSk Bil ARSE. IAS SEPIA Be i LPG INR GI, H 
加 6 个 搜索 集群 服务 器 ， 但 本 地 并 没有 数据 。 





为 什么 每 个 节点 上 要 有 4 个 searchd 实 例 ? 为 什么 不 是 每 个 服务 器 上 
只 一 个 searchd 实 例 ， 配 置 它 运 载 4 个 索引 块 ， 上 自己 和 上 自己 通信 ， 就 像 远 
程 服务 器 那样 来 利用 多 核 CPU， 一 如 我 们 之 前 建议 的 那样 ? 有 四 个 实例 
而 不 是 一 个 有 它 的 好 处 。 首 先 ， 它 减少 了 启动 时 间 。 有 几 个 GB 的 属性 
数据 需要 预先 加 载 到 RAM 中 ; 在 同一 时 间 局 动 几 个 后 台 进 程 可 以 并 行 
执行 。 其 次 ， 这 可 增加 可 用 性 。 在 searchd 失 败 或 更 新 的 情形 下 ， 整 个 索 
引 中 只 有 1/24 不 可 访问 ， 而 不 是 1/6。 








在 搜索 集群 的 24 个 实例 里 ， 我 们 使 用 基于 时 间 的 分 片 来 进一步 减少 
负载 量 。 许 多 查询 只 需 运行 在 最 近 的 数据 之 上 ， 因 此 ， 数 据 可 以 被 分 成 
3 个 不 相交 的 索引 集 : 最 近 一 个 星期 的 数据 、 最 近 3 个 月 的 数据 和 全 部 数 
据 。 这 些 索 引 分 布 在 每 个 实例 所 在 服务 器 的 几 块 物理 磁盘 上 。 通 过 这 个 
方法 ， 每 个 实例 都 拥有 了 自己 的 CPU 和 物理 磁盘 驱动 器 ， 且 互 不 干扰 。 











本 地 的 cron 任 务 会 定时 更 新 索引 ， 跨 网 络 从 MySQL 上 拉 数 据 ， 但 是 


只 在 本 地 创建 索引 文件 。 


使 用 几 块 明确 独立 的 “ 裸 * 人 磁盘 被 证 明快 于 单独 的 RAID 卷 。 裸 磁盘 
能 够 控制 哪 一 些 文件 存储 到 哪 块 物理 磁盘 上 ， 而 在 RAID 里 却 不 一 样 ， 
控制 器 将 决定 哪 一 个 数据 块 存储 在 哪 一 块 物理 磁盘 上 。 裸 磁盘 也 能 保证 
在 不 同 的 索引 块 上 充分 使 用 并 行 WO， 但 基于 RAID 的 并 发 查询 仍然 受制 
于 IO 层级 。 我 们 在 此 处 选择 的 是 没有 元 余 的 RAID 0， 这 是 因为 我 们 不 
关心 磁盘 故障 ; 我 们 可 以 在 搜索 节点 很 方便 地 重建 索引 。 当 需要 提高 可 
靠 性 时 ， 也 可 以 使 用 几 个 RAID 1 镜像) 卷 提供 跟 裸 盘 相 同 的 吞吐 量 。 








从 BoardReader 那 里 了 解 到 的 男 一 个 有 趣 的 事情 是 Sphinx 版 本 升级 是 
如 何 执行 的 。 显 然 ， 整 个 集群 是 不 可 能 停 掉 的 ， 因 此 ， 疝 后 兼容 非常 重 
要 。 笠 运 的 是 ，Sphinx 提 供 了 这 个 功能 新 版 本 的 searchd 一 般 都 能 读 
出 旧版 本 的 索引 文件 ， 也 总 能 跨 网 络 跟 旧 的 客户 端 通信 。 要 注意 的 是 第 
一 层 上 用 来 聚集 搜索 结果 的 节点 对 于 第 二 层 节 点 而 言 就 像 客户 端 ， 而 由 
第 二 层 节 点 执行 实际 的 大 多 数 搜索 。 所 以 ， 第 二 层 上 的 节点 首先 升级 ， 
然后 是 第 一 层 上 的 节点 ， 最 后 才 是 web 前 端 。 

















在 本 例 中 学 到 的 经 验 如 下 。 


。 对 于 超大 型 数据 库 的 格言 是 : 分 请 ， 分 片 ， 分 片 ， 并 行 。 
© 在 大 规模 的 搜索 应 用 里 ， 组 织 searchd 为 多 层 树 状 结构 。 
。 尽 可 能 地 针对 全 部 数据 的 一 人 小 部 分 建立 优化 的 索引 。 

。 明确 地 将 文件 映 冉 到 磁盘 而 不 是 依靠 RAID 控 制 旨 。 


Sahibinden.com 对 SELECT 的 优化 


Sahibinden (http://www.sahibinden.com) 是 土耳其 一 家 领先 的 在 线 
拍卖 网 站 ， 存 在 着 大 量 的 性 能 问题 ， 包 括 全文 搜 索性 能 。 在 部 车 了 
Sphinx 并 对 查询 做 了 一 些 分 析 之 后 ， 我 们 发 现 Sphinx 高 频 执行 应 用 相关 
的 过 滤 查 询 ， 要 比 MySQL 快 许多 一 一 即使 在 MySQL 中 有 对 相关 列 的 索 
引 。 另 外 ， 运 用 Sphinx 于 非 全 文 搜索 时 ， 可 产生 易于 编写 和 文 持 的 统一 
的 应 用 代码 。 

















MySQL 的 表现 不 佳 是 因为 每 个 单独 列 的 选择 性 不 足以 明显 地 缩小 
搜索 空间 。 事 实 上 ， 要 创建 和 维护 所 有 需要 的 索引 几乎 不 可 能 ， 因 为 有 
太 多 的 列 需要 它们 。 产 品 信息 表 大 约 有 100 个 列 ， 从 技术 上 讲 ，Web 应 
用 可 能 使 用 任 一 列 来 过 滤 或 排序 。 





在 这 个 “热门 ”的 产品 表 上 的 插入 和 更 新 都 是 怨 速 ， 因 为 有 太 多 的 索 
引 需 要 随 之 更 新 。 





基于 这 些 原 因 ， 要 应 付 产 品 信息 表 上 的 所 有 SELECT 得 询 ， 而 不 仅仅 
是 全 文 搜索 查询 ， Sphinx 就 是 一 个 自然 的 选择 。 


网 站 数据 库 的 大 小 和 负载 量 如 下 。 


。 数据 库 里 包含 了 大 约 400 000 行 记录 ，500MB 数 据 。 
。 负载 量 大 约 是 每 天 300 万 个 查询 。 














为 了 模拟 普通 的 带 WHERE 条 件 的 SELECT 查询 ，Sphinx 在 建 索引 过 
程 中 把 一 些 特别 的 关键 字 写 在 全 文案 引 里 。 这 些 关 键 字 都 形 如 _ _CATN_ 

_， 这 里 的 N 可 以 用 相应 的 分 类 TD 来 代替 。 这 个 蔡 代 发 生 在 MySQL 查 
询 中 运行 带 CONCATO 函 数 的 索引 之 时 ， 因 此 源 数 据 不 会 被 修改 。 








索引 需要 尺 可 能 频繁 地 重建 。 我 们 是 固定 每 分 钟 重建 一 次 。 在 多 


CPU 环境 里 每 次 重建 的 时 间 是 9 一 15$s， 因 此 ， 早 先 讨 论 过 的 main+delta 
方案 是 不 需要 的 。 


实践 证 明 ，PHP API 在 解析 市 有 大 量 属性 的 结果 集 时 ， 会 花费 相当 
数量 的 时 间 (每 个 查询 大 约 7~~9ms) 。 通 常 ， 这 个 开销 不 会 构成 问题 ， 
因为 全 文 搜索 的 开销 ， 特 别 是 在 大 数据 集 上 执行 时 ， 会 高 于 这 个 解析 。 
为 了 能 减少 这 个 因 系 的 影响 ， 索 引 被 分 隔 成 一 对 对 的 :“ 轻 量 ? 的 有 34 个 
常用 的 属性 ， 而 “完整 * 的 有 全 部 99 个 属性 。 





其 他 可 能 的 解决 办 法 是 使 用 SphinxSE 或 者 实现 一 个 能 够 把 特定 的 列 
读 到 Sphinx 里 的 功能 。 然 而 ， 使 用 两 个 索引 的 方法 是 目前 实现 起 来 最 快 
的 ， 时 间 也 是 重要 因素 。 








以 下 是 我 们 从 这 个 案例 里 学 到 的 经 验 。 


有 时 ，Sphinx 上 的 全 扫描 的 执行 效率 要 好 过 MySQL 的 索引 读 取 。 
对 于 选择 性 条 件 ， 用 “ 伪 关 键 字 ” 代 答 属 性 过 沽 之 后 ， 全 文 搜索 引擎 
能 做 更 多 的 工作 。 

脚本 语言 里 的 API 在 某 些 极端 但 现实 的 条 件 下 可 能 会 成 为 性 能 瓶 
人 颈 。 


BoardReader.com 对 GROUP BY 的 优 
化 


对 BoardReader 服 务 的 改进 需要 统计 超 链接 数 ， 并 且 要 根据 关联 数 
据 创 建 不 同 的 报表 。 例 如 ， 报 表 之 一 束 是 要 显示 出 最 近 一 个 星期 来 链接 
数 排 在 最 前 面 的 N 个 二 级 域名 。 另 外 一 个 统计 链接 到 指定 站 点 例如 














YouTube 的 最 前 面 N 个 二 级 和 三 级 域名 。 用 来 创建 这 些 报表 的 查询 具有 
下 列 这 些 常 见 特征 。 





。 它们 总 是 按 域 来 分 组 的 。 

它们 按 每 个 组 里 的 链接 数 排序 ， 或 者 是 以 每 个 组 里 的 唯一 域名 的 链 
接 数 。 

它们 要 处 理 大 量 的 数据 (接近 几 百 万 行 记录 ) ， 但 是 ， 最 后 生成 的 
之 有 最 佳 分 组 的 结果 集 往往 又 很 小 。 

近似 的 结果 也 能 接受 。 





在 原型 测试 环节 里 ，MySQL 大 概 化 了 300s 来 执行 这 些 碍 询 。 理 论 
上 ， 通 过 数据 分 片 技 术 ， 把 它们 分 拆 到 各 个 服务 器 执行 ， 再 在 应 用 里 用 
人 工 方式 聚合 查询 结果 ， 还 可 能 将 这 些 碍 询 的 时 间 优 化 到 10s 左 右 。 但 
是 ， 这 需要 构建 一 个 复杂 的 架构 ， 即 使 分 片 的 实现 也 远 不 是 那么 直接 明 
Fe 


因为 已 经 成 功 地 使 用 Sphinx 对 搜索 负载 进行 过 分 布 式 处 理 ， 所 以 ， 
我 们 决定 还 使 用 Sphinx 来 实现 一 个 近似 的 分 布 式 的 GROUP BY。 这 就 要 求 
在 建立 索引 之 前 预 处 理 这 些 数据 ， 把 所 有 感 兴趣 的 子 吕 转换 为 单独 
的 “词语 ?>。 以 下 就 是 一 个 示例 URL 在 预 处 理 前 后 的 样子 。 


source_url = http://my.blogger .com/my/best -post .php 
processed_url = my$blogger$com, blogger$com, my$blogger$com$m 
my$blogger$com$my$best, my$blogger$com$my$b 


美元 符号 《〈$) MMGENURLA TT WSR, APER i He 
作 在 任何 URL 部 分 ， 域 或 者 路 径 。 这 种 预 处 理 能 析 取 所 有 ” 感 兴趣 ”的 子 
串 成 为 单独 的 关键 字 ， 这 样 搜索 起 来 是 最 快 的 。 从 技术 上 说 ， 我 们 可 以 





FA a Ed Be UR SG], (EASE AS SUCK G1, RE HE 
NS 

链接 是 在 构建 索引 时 预 处 理 的 ， 使 用 了 特定 的 MySQL UDF。 在 这 
个 任务 里 ， 我 们 还 定制 了 一 个 计算 唯一 性 值 的 功能 用 来 加 速 Sphinx。 在 
此 之 后 ， 我 们 就 能 把 查询 全 部 移 到 搜索 集群 里 ， 人 简单 地 分 及 ， 同 时 明显 
减少 查询 延迟 。 





数据 库 的 大 小 和 负载 量 如 下 。 








© 里 面 约 有 1.5 亿 ~2 亿 行 记 录 ， 预 处 理 之 后 会 生成 50~100GB 数 据 。 
。 负载 是 每 天 大 概 60 000~100 000 个 GROUP BY 查询 。 





用 于 分 布 的 GROUP BY 的 索引 也 是 部 署 在 先前 我 们 提 到 的 同一 个 搜索 
集群 上 一 一 有 着 6 台 机 器 ，24 个 逻辑 CPU。 相 对 存储 了 1.5TB 文 本 的 数据 
库 而 言 ， 这 只 是 主要 搜索 负载 的 一 个 零头 。 





Sphinx #40 ‘MySQL 的 精确 、 绥 慢 、 单 CPU 的 计算 方式 ， 转 而 用 
近似 、 快 速 、 分 布 式 的 计算 方式 。 所 有 会 引入 近似 错误 的 因素 都 会 存 
E: 输入 数据 常常 包含 太 多 的 行 ， 以 至 于 无 法 放 入 “排序 缓冲 区 ”里 (我 
们 使 用 的 是 一 个 固定 的 10 万 行 的 RAM) ， 我 们 使 用 了 
COUNT (DISTINCT), ， 结 果 集 是 通过 网 络 聚 合 的 。 除 此 以 外 ， 对 于 结果 集 
里 的 前 10 一 1000 组 一 一 这 和 弟弟 是 报表 实际 所 需 的 一 一 能 够 有 99% 一 
100% 的 准确 率 。 








索引 的 数据 跟 普 通 全 文 搜索 用 的 数据 很 不 一 样 。 它 里 面 有 巨额 的 文 
档 和 关键 字 ， 尽 管 文档 都 非常 小 。 文 档 的 编号 也 征 非 连续 的 ， 因 为 它 使 
用 的 是 一 种 特殊 的 编号 约定 《综合 了 源 服 务 器 、 源 表 和 主键 ) ， 因 而 无 
法 用 32 位 来 存储 。 巨 大 数量 的 搜索 “关键 字 ? 也 会 引 及 频繁 的 CRC32 冲突 








(Sphinx 用 CRC32 把 关键 字 映 射 到 内 部 词语 的 ID) 。 因 为 这 些 原因 ， 我 
们 只 能 被 迫 在 内 部 到 处 使 用 64 位 的 标识 符 。 











系统 目前 的 性 能 很 让 人 满意 。 对 于 最 复杂 的 域名 ， 完 成 一 次 查询 的 
时 间 通 常 是 0.1 一 1.0s。 


以 下 束 是 从 这 个 案例 里 学 到 的 经 验 。 


e 对 于 GROUP BY 查询 ， 可 以 牺牲 掉 一 些 精度 以 获取 更 快 的 速度 。 
。 对 于 大 量 文 本 的 集合 或 者 适当 大 小 的 特殊 数据 集 ， 可 能 要 用 64 位 标 


识 符 。 


Grouply.com 对 联接 三 询 的 优化 


Grouply (http:/www.grouply.com) 构建 了 一 个 基于 Sphinx 的 解决 方 
案 来 搜索 几 百 万 行 的 标签 信息 数据 库 ， 其 中 利用 了 Sphinx 的 MVA 文 持 。 
为 了 高 可 扩展 性 ， 数 据 库 被 分 解 到 许多 物理 服务 器 上 ， 因 而 对 跨 不 同 服 
务 器 的 表 的 查询 是 必需 的 。 然 而 任意 大 规模 的 联接 是 不 可 能 的 ， 因 为 会 
有 太 多 的 服务 器 、 数 据 库 和 表 参 与 执行 。 














Grouply 使 用 Sphinx 的 MVA 特 性 来 存储 消息 标签 。 标 和 俭 列 表 通 过 
PHP 的 API 从 Sphinx 集 群 中 获取 。 这 蔡 代 了 从 MySQL 服 务 器 来 的 多 个 顺 
序 的 SELECT。 同 时 ， 为 了 减少 SQL 得 询 的 数量 ， 茶 些 特 定 用 于 展现 的 
数据 〈 例 如 ， 最 后 谈 取 消息 的 一 小 部 分 用 户 的 列表 ) 同样 存储 在 单独 的 
MVA 属 性 中 ， 并 且 通 过 Sphinx 访 问 。 


这 里 有 两 项 创新 点 : 使 用 了 Sphinx 预 先 构 建 JOIN 结果 ， 并 且 使 用 分 
布 式 功 能 合并 了 分 散在 各 个 数据 块 上 的 数据 。 只 使 用 MySQL 是 不 可 能 


WEAK, rea OCA VA FF BER Bi HENS oP RBIS AY BE ZD AN PEAR A as Al 
表 上 ， 但 这 又 会 损害 可 扩展 性 和 可 扩充 性 。 


从 本 案例 中 学 到 的 经 验 如 下 。 


。 Sphinx 能 够 用 于 有 效 地 聚合 高 度 分 区 化 的 数据 。 
e MVA 人 能够 用 于 存储 和 优化 预先 构建 的 JOIN 结 
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DAN ZHE 


在 本 附录 里 ， 我 们 只 是 简要 地 讨论 了 Sphinx 全 文 搜索 系统 。 为 了 缩 
短篇 幅 ， 我 们 特意 略 过 了 关于 Sphinx 其 他 许多 功能 特性 的 讨论 ， 例 如 对 
HTML 索 引 的 支持 、 对 MyISAM 有 更 好 支持 的 范围 搜索 、 词 法 和 同义词 
的 支持 、 前 级 和 中 绥 索 引 以 及 CJK 索 引 。 不 过 ， 这 个 附录 应 该 已 经 给 了 
你 一 些 关 于 Sphinx 如 何 高 效 解决 真实 世界 各 种 问题 的 启发 。 它 并 不 限于 
做 全 文 搜索 ， 还 能 解决 许多 传统 SQL 的 老 难题 。 


Sphinx 既 不 是 一 颗 银 弹 ， 也 不 是 MySQL 的 一 个 替代 品 ， 但 是 在 许多 
应 用 案例 里 (对 于 现代 Web 应 用 已 经 变 得 很 常见 ) ， 它 可 以 被 当 作 
MySQL 很 有 用 的 补 序 。 你 可 以 简单 地 用 它 来 减轻 一 些 工作 的 负担 ， 甚 
至 为 你 的 应 用 创造 新 的 可 能 性 。 








你 可 以 从 http:/www.sphinxsearch.com 下 载 Sphinx， 男 外 ， 别 忘记 分 
享 你 自己 的 使 用 心得 。 


(1) 详情 参考 http://en.wikipedia.org/wiki/Okapi_BM25 
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explicit invalidation 
explicit locking 

external XA transactions 
extra column 

F 

Facebook 

fadvise() function 
failback 

failover 

failures, mean time between 


Falcon storage engine 


fallback 

fast warmup feature 
FathomDB 

FCP (Fibre Channel Protocol) 
fdatasync() function 
Federated storage engine 
Fedora 

fencing 

fetching mistakes 

Fibre Channel Protocol (FCP) 
FIELDQ function 

FILE () function 

FILE I/O 

files 


consistency of 


copying 


descriptors 

transferring large 
filesort 
filesystems 
filtered column 
filtering 
fincore tool 
FIND_IN_SETQ function 
fire hose, drinking from the 
FIRST() function 
first-write penalty 
Five Whys 
fixed allocation 
flapping 
flash storage 
Flashcache 


Flexviews tools 


FLOAT type 

FLOOR() function 

FLUSH LOGS command 

FLUSH QUERY CACHE command 
FLUSH TABLES WITH READ LOCK command 
flushing algorithm, InnoDB 

flushing binary logs 

flushing log buffer 

flushing tables 

FOR UPDATE hint 

FORCE INDEX hint 

foreign keys 

Forge, MySQL 

FOUND_ROWS() function 

fractal trees 


fragmentation 


free space fragmentation 
FreeBSD 
“freezes” 
frequency scaling 
.frm file 
FROM_UNIXTIME() function 
fsync() function 
full-stack benchmarking 
full-text searching 
on BoardReader.com 
Boolean full-text searches 
collection 
on Mininova.org 
parser plugins 
Sphinx storage engine 
functional partitioning 


furious flushing 


Fusion-io 

G 

Galbraith, Patrick 
Galera 

Ganglia 

garbage collection 
GDB stack traces 

gdb tool 

general log 

GenieDB 

Gentoo 

GEOMETRY type 
geospatial searches 
GET_LOCK() function 
get_name_from_id() function 


Gladwell, Malcom 


glibc libraries 

global locks 

global scope 

global version/session splits 
globally unique IDs (GUIDs) 
gnuplot 

Goal (Goldratt) 

Goal-Driven Performance Optimization white paper 
GoldenGate, Oracle 
Goldratt, Eliyahu M. 
Golubchik, Sergei 

Graphite 

great-circle formula 
GREATESTO function 

grep 

Grimmer, Lenz 


Groonga storage engine 


Groundwork Open Source 
GROUP BY queries 

group commit 

Grouply.com 
GROUP_CONCATO function 
Guerrilla Capacity Planning (Gunther) 
GUID values 

Gunther, Neil J. 

gunzip tool 

gzip compression 

H 

Hadoop 

handler API 

handler operations 
HandlerSocket 


HAProxy 


hard disks, choosing 

hardware and software RAID 

hardware threads 

hash codes 

hash indexes 

hash joins 

Haversine formula 

header 

headroom 

HEAP tables 

heartbeat record 

HEX() function 

Hibernate Core interfaces 

Hibernate Shards 

high availability 
achieving 


avoiding single points of failure 


defined 
failover and failback 
High Availability Linux project 
high bits 
High Performance Web Sites (Souders) 
high throughput 
HIGH_PRIORITY hint 
hit rate 
HiveDB 
hot data, segregating 
“hot” online backups 
How Complex Systems Fail (Cook) 
HTTP proxy 
http_load tool 
Hutchings, Andrew 


Hyperic HQ 


hyperthreading 


I/O 
benchmark 
InnoDB 
MyISAM 
performance 
slave thread 
I/O-bound machines 
IaaS (Infrastructure as a Service) 
.ibd files 
Icinga 
id column 
identifiers, choosing 
idle machine's vmstat output 
IFO function 


IfP (instrumentation-for-php) 


IGNORE INDEX hint 
implicit locking 
INQ function 
incr() function 
incremental backups 
.index files 
index-covered queries 
indexer, Sphinx 
indexes 

benefits of 

case study 

clustered 

covering 

and locking 

maintaining 


merge optimizations 


and mismatched PARTITION BY 
MyISAM storage engine 
order of columns 
packed (prefix-compressed) 
reducing fragmentation 
redundant and duplicate 
and scans 
Statistics 
strategies for high performance 
types of 
unused 
INET_ATON( function 
INET_NTOAQ function 
InfiniDB, Calpont 
info() function 
Infobright 


INFORMATION_SCHEMA tables 


infrastructure 
Infrastructure as a Service (IaaS) 
Ingo, Henrik 
inner joins 
Innobase Oy 
InnoDB 
advanced settings 
buffer pool 
concurrency configuration 
crash recovery 
data dictionary 
data layout 
Data Recovery Toolkit 
and deadlocks 
and filesystem snapshots 


flushing algorithm 


Hot Backup 

I/O configuration 

lock waits in 

log files 

and query cache 

release history 

row locks 

tables 

tablespace 

transaction log 
InnoDB locking selects 
innodb variable 
InnoDB-specific variables 
innodb_adaptive_checkpoint variable 
innodb_analyze_is_persistent variable 
innodb_autoinc_lock_mode variable 


innodb_buffer_pool_instances variable 


innodb_buffer_pool_size variable 
innodb_commit_concurrency variable 
innodb_concurrency_tickets variable 
innodb_data_file_path variable 
innodb_data_home_dir variable 
innodb_doublewrite variable 
innodb_file_io_threads variable 
innodb_file_per_table variable 
innodb_flush_log_at_trx_commit variable 
innodb_flush_method variable 
innodb_flush_neighbor_pages variable 
innodb_force_recovery variable 
innodb_io_capacity variable 
innodb_lazy_drop_table variable 
innodb_locks_unsafe_for_binlog variable 


innodb_log_buffer_size variable 


innodb_log_files_in_group variable 
innodb_log_file_size variable 
innodb_max_dirty_pages_pct variable 
innodb_max_purge_lag variable 
innodb_old_blocks_time variable 
innodb_open_files variable 
innodb_overwrite_relay_log_info variable 
innodb_read_io_threads variable 
innodb_recovery_stats variable 
innodb_stats_auto_update variable 
innodb_stats_on_metadata variable 
innodb_stats_sample_pages variable 
innodb_strict_mode variable 
innodb_support_xa variable 
innodb_sync_spin_loops variable 
innodb_thread_concurrency variable 


innodb_thread_sleep_delay variable 


innodb_use_sys_stats_table variable 
innodb_version variable 
innodb_write_io_threads variable 
innotop tool 

INSERT ... SELECT statements 
insert buffer 

INSERT command 

INSERT ON DUPLICATE KEY UPDATE command 
insert-to-select rate 

inspecting server status variables 
INSTEAD OF trigger 
instrumentation 
instrumentation-for-php (IfP) 

INT type 

integer computations 


integer types 


Intel X-25E drives 
Intel Xeon X5670 Nehalem CPU 
interface tools 
intermittent problems, diagnosing 
capturing diagnostic data 
case study 
single-query versus server-wide problems 
internal concurrency issues 
internal XA transactions 
intra-row fragmentation 
introducers 
invalidation on read 
ionice 
iostat 
IP addresses 
IP takeover 


ISNULL() function 


isolating columns 
isolation 
iterative optimization by benchmarking 
J 
JMeter 
joins 
decomposition 
execution strategy 
JOIN queries 
optimizers for 
journaling filesystems 
Joyent 
K 
Karlsson, Anders 
Karwin, Bill 


Keep-Alive 


key block size 

key buffers 

key column 

key_buffer_size variable 

key_len column 

K6hntopp, Kristian 

Kyte, Tom 

L 

L-values 

lag 

Lahdenmaki, Tapio 

LASTO) function 
LAST_INSERT_IDQ function 
latency 

LATEST DETECTED DEADLOCK 
LATEST FOREIGN KEY ERROR 


Launchpad 


lazy UNIONs 

LDAP authentication 

Leach, Mike 

LEAST() function 

LEFT JOIN queries 

LEFT OUTER JOIN queries 
left-deep trees 

Leith, Mark 

LENGTHO function 
lighttpd 

lightweight profiling 

LIMIT query 

limited replication bandwidth 
linear scalability 

“lint checking” 


Linux Virtual Server (LVS) 


Linux-HA stack 

linuxthreads 

Little's Law 

load balancers 

load balancing 

LOAD DATA FROM MASTER command 
LOAD DATA INFILE command 

LOAD INDEX command 

LOAD TABLE FROM MASTER command 
LOAD_FILE() function 

local caches 

local shared-memory caches 

locality of reference 

lock contention 

LOCK IN SHARE MODE command 
LOCK TABLES command 


lock time 


lock waits 
lock-all-tables variable 
lock-free InnoDB backups 
locks 
debugging 
granularities 
implicit and explicit 
read/write 
row 
table 
log buffer 
log file coordinates 
log file size 
log positions, locating 
log servers 


log threads 


log, InnoDB transaction 
logging 

logical backups 

logical concurrency issues 
logical reads 

logical replication 

logical unit numbers (LUNs) 
log_bin variable 
log_slave_updates variable 
LONGBLOB type 
LONGTEXT type 

lookup tables 

loose index scans 

lost time 

low latency 
LOW_PRIORITY hint 


Lua language 


Lucene 

LucidDB 

LUNs (logical unit numbers) 
LVM snapshots 

Ivremove command 

LVS (Linux Virtual Server) 
lzo 

M 

Maatkit (see Percona Toolkit) 
maintenance operations 
malloc() function 

manual joins 

mapping tables 

MariaDB 

master and replicas 


master shutdown, unexpected 


master-data variable 

master-master in active-active mode 
master-master in active-passive mode 
master-master replication 
master.info file 

Master_Log_ File 
MASTER_POS_WAIT ( ) function 
MATCH(O function 

materialized views 

Matsunobu, Yoshinori 

MAX() function 

Maxia, Giuseppe 

maximum system capacity 
max_allowed_packet variable 
max_connections setting variable 
max_connect_errors variable 


max_heap_table_size setting variable 


mbox mailbox messages 
MBRCONTAINS() function 
McCullagh, Paul 

MD50 function 

780|Index 

md5sum 

mean time between failures (MTBF) 
mean time to recover (MTTR) 
measurement uncertainty 
MEDIUMBLOB type 
MEDIUMINT type 
MEDIUMTEXT type 
memcached 

Memcached Access 

memory 


allocating for caches 


configuring 
consumption formula for 
InnoDB buffer pool 
InnoDB data dictionary 
limits on 
memory-to-disk ratio 
MyISAM key cache 
per-connection needs 
pool 
reserving for operating system 
size 
Sphinx RAM 
table cache 
thread cache 
Memory storage engine 
Merge storage engine 


merge tables 


merged read and write requests 
mget() call 

MHA toolkit 

middleman solutions 
migration, benchmarking after 
Millsap, Cary 

MINO function 

Mininova.org 
mk-parallel-dump tool 
mk-parallel-restore tool 
mk-query-digest tool 
mk-slave-prefetch tool 

MLC (multi-level cell) 

MMM replication manager 
mod_log_config variable 


MonetDB 


Monitis 

monitoring tools 

MONyog 

mpstat tool 

MRTG (Multi Router Traffic Grapher) 
MTBF (mean time between failures) 
mtop tool 

MTTR (mean time to recovery) 
Mulcahy, Lachlan 

Multi Router Traffic Grapher (MRTG) 
multi-level cell (MLC) 

multi-query mechanism 

multicolumn indexes 

multiple disk volumes 

multiple partitioning keys 

multisource replication 


multivalued attributes 


Munin 

MVCC (multiversion concurrency control) 

my.cnf file 

.MYD file 

mydumper 

.MYI file 

MyISAM storage engine 
and backups 
concurrency configuration 
and COUNT() queries 
data layout 
delayed key writes 
indexes 
key block size 
key buffer/cache 


performance 


tables 
myisamchk 
myisampack 
mylvmbackup 
MySQL 
concurrency 
configuration mechanisms 
development model 
GPL-licensing 
logical architecture 
proprietary plugins 
Sandbox script 
version history 
MySQL 5.1 Plugin Development (Golubchik & Hutchings) 
MySQL Benchmark Suite 
MySQL Cluster 


MySQL Enterprise Backup 


MySQL Enterprise Monitor 

MySQL Forge 

MySQL High Availability (Bell et al.) 
MySQL Stored Procedure Programming (Harrison & Feuerstein) 
MySQL Workbench Utilities 
mysql-bin.index file 
mysql-relay-bin.index file 
mysqladmin 

mysqlbinlog tool 

mysqlcheck tool 

mysqld tool 

mysqldump tool 

mysqlhotcopy tool 

mysqlimport tool 

mysaqlslap tool 


mysql_query() function 


mysql_unbuffered_query() function 
mytop tool 

N 

Nagios 

Nagios System and Network Monitoring (Barth) 
name locks 

NAS (network-attached storage) 

NAT (network address translation) 
Native POSIX Threads Library (NPTL) 
natural identifiers 

natural-language full-text searches 
NDB API 

NDB Cluster storage engine 

nesting cursors 

netcat 

network address translation (NAT) 


network configuration 


network overhead 

network performance 

network provider, reliance on single 
network-attached storage (NAS) 
New Relic 

next-key locking 

NES, SAN over 

Nginx 

nice 

nines rule of availability 

Noach, Shlomi 

nodes 

non-SELECT queries 
nondeterministic statements 
nonrepeatable reads 


nonreplicated data 


nonsharded data 

nontransactional tables 

nonunique server IDs 

nonvolatile random access memory (NVRAM) 
normalization 

NOT EXISTS( queries 

NOT NULL 

NOW() function 

NOW_USECQ( function 

NPTL (Native POSIX Threads Library) 

NULL 

null hypothesis 

NULLIF() function 

NuoDB 

NVRAM (nonvolatile random access memory) 
O 


object versioning 


object-relational mapping (ORM) tool 
OCZ 
OFFSET variable 
OLTP (online transaction processing) 
on-controller cache (see RAID) 
on-disk caches 
on-disk temporary tables 
online transaction processing (OLTP) 
open() function 
openark kit 
opened tables 
opening and locking partitions 
OpenNMS 
operating system 

choosing an 


how to select CPUs for MySQL 


optimization 

status of 

what limits performance 
oprofile tool 
Opsview 
optimistic concurrency control 
optimization 

(see also application-level optimization) 

(see also query optimization) 

BLOB workload 

DISTINCT queries 

filesort 

full-text indexes 

GROUP BY queries 

JOIN queries 

LIMIT and OFFSET 


OPTIMIZE TABLE command 


optimizer traces 
optimizer_prune_level 
optimizer_search_depth 
optimizer_switch 
prepared statements 
queries 

query cache 

query optimizer 

RAID performance 
ranking queries 

selects on Sahibinden.com 
server setting optimization 
sharded JOIN queries on Grouply.com 
for solid-state storage 
sorts 


SQL_CALC_FOUND_ROWS variable 


subqueries 
TEXT workload 
through profiling 
UNION variable 
Optimizer 
hints 
DELAYED 
FOR UPDATE 
FORCE INDEX 
HIGH_PRIORITY 
IGNORE INDEX 
LOCK IN SHARE MODE 
LOW_PRIORITY 
SQL_BIG_RESULT 
SQL_BUFFER_RESULT 
SQL_CACHE 


SQL_CALC_FOUND_ROWS 


SQL_NO_CACHE 
SQL_SMALL_RESULT 
STRAIGHT_JOIN 
USE INDEX 

limitations of 
correlated subqueries 
equality propogation 
hash joins 
index merge optimizations 
loose index scans 
MIN() and MAX() 
parallel execution 
SELECT and UPDATE on the Same Table 
UNION limitations 

query 


complex queries versus many queries 


COUNTO aggregate function 
join decomposition 

limitations of MySQL 

optimizing data access 

reasons for slow queries 
restructuring queries 

Optimizing Oracle Performance (Millsap) 
options 

OQGraph storage engine 

Oracle Database 

Oracle development milestones 
Oracle Enterprise Linux 

Oracle GoldenGate 

ORDER BY queries 

order processing 

ORM (object-relational mapping) 


OurDelta 


out-of-sync replicas 
OUTER JOIN queries 
outer joins 

outliers 

oversized packets 
O_DIRECT variable 
O_DSYNC variable 
P 

Pacemaker 

packed indexes 
packed tables 
PACK_KEYS variable 
page splits 

paging 

PAM authentication 


parallel execution 


parallel result sets 
parse tree 
parser 
PARTITION BY variable 
partitioning 
across multiple nodes 
how to use 
keys 
with replication filters 
sharding 
tables 
types of 
passive caches 
Patricia tries 
PBXT 
PCle cards 


Pen 


per-connection memory needs 
per-connection needs 
percent() function 
percentile response times 
Percona InnoDB Recovery Toolkit 
Percona Server 
BLOB and TEXT types 
buffer pool 
bypassing operating system caches 
corrupted tables 
doublewrite buffer 
enhanced slow query log 
expand_fast_index_creation 
extended slow query log 
fast warmup features 


FNV64() function 


HandlerSocket plugin 

idle transaction timeout parameter 
INFORMATION_SCHEMA.INDEX_STA TISTICS table 
innobd_use_sys_stats_table option 
InnoDB online text creation 
innodb_overwrite_relay_log_info option 
innodb_read_io_threads option 
innodb_recovery_stats option 
innodb_use_sys_stats_table option 
innodb_write_io_threads option 

larger log files 

lazy page invalidation 

limit data dictionary size 

mutex issues 

mysqldump 

object-level usage statistics 


query-level instrumentation 


read-ahead 

replication 

slow query log 

stripping query comments 

temporary tables 

user statistics tables 
Percona Toolkit 

Aspersa 

Maatkit 

mk-parallel-dump tool 

mk-parallel-restore tool 

mk-query-digest tool 

mk-slave-prefetch tool 

pt-archiver 

pt-collect 


pt-deadlock-logger 


pt-diskstats 

pt-duplicate-key-checker 

pt-fifo-split 

pt-find 

pt-heartbeat 

pt-index-usage 

pt-kill 

pt-log-player 

pt-mext 

pt-mysql-summary 

pt-online-schema-change 

pt-pmp 

pt-query-advisor 

pt-query-digest 
extracting from comments 
profiling 


query log 


slow query logging 
pt-sift 
pt-slave-delay 
pt-slave-restart 
pt-stalk 
pt-summary 
pt-table-checksum 
pt-table-sync 
pt-tcp-model 
pt-upgrade 
pt-visual-explain 
Percona tools 
Percona XtraBackup 
Percona XtraDB Cluster 
performance optimization 


plotting metrics 


profiling 

SAN 

views and 
Performance Schema 
Perl scripts 
Perldoc 
perror utility 
persistent connections 
persistent memory 
pessimistic concurrency control 
phantom reads 
PHP profiling tools 
phpMyAdmin tool 
phrase proximity ranking 
phrase searches 
physical reads 


physical size of disk 


pigz tool 

“pileups” 

Pingdom 

pinging 

Planet MySQL blog aggregator 
planned promotions 
plugin-specific variables 
plugins 

point-in-time recovery 
poor man's profiler 

port forwarding 
possible_keys column 
post-mortems 
PostgreSQL 

potential cache size 


power grid 


preferring a join 
prefix indexes 
prefix-compressed indexes 
preforking 
pregenerating content 
prepared statements 
preprocessor 
Preston, W. Curtis 
primary key 
PRIMARY KEY constraint 
priming the cache 
PROCEDURE ANALYSE command 
procedure plugins 
processor speed 
profiling 

and application speed 


applications 


diagnosing intermittent problems 
interpretation 
MySQL queries 
optimization through 
single queries 
tools 
promotions of replicas 
propagation of changes 
proprietary plugins 
proxies 
pruning 
pt-archiver tool 
pt-collect tool 
pt-deadlock-logger tool 
pt-diskstats tool 


pt-duplicate-key-checker tool 


pt-fifo-split tool 

pt-find tool 

pt-heartbeat tool 
pt-index-usage tool 

pt-kill tool 

pt-log-player tool 

pt-mext tool 
pt-mysql-summary tool 
pt-online-schema-change tool 
pt-pmp tool 

pt-query-advisor tool 
pt-query-digest (see Percona Toolkit) 
pt-sift tool 

pt-slave-delay tool 
pt-slave-restart tool 

pt-stalk tool 


pt-summary tool 


pt-table-checksum tool 
pt-table-sync tool 
pt-tcp-model tool 
pt-upgrade tool 
pt-visual-explain tool 
PURGE MASTER LOGS command 
purging old binary logs 
pushdown joins 
Q 
Q mode 
Q4M storage engine 
Qcache_lowmem_prunes variable 
query cache 

alternatives to 

configuring and maintaining 


InnoDB and the 


memory use 
optimizations 
when to use 
query execution 
MySQL client/server protocol 
optimization process 
query cache 
query execution engine 
query logging 
query optimization 
complex queries versus many queries 
COUNT) aggregate function 
join decomposition 
limitations of MySQL 
optimizing data access 
reasons for slow queries 


restructuring queries 


query states 

query-based splits 

querying across shards 
query_cache_limit variable 
query_cache_min_res_unit value variable 
query_cache_size variable 
query_cache_type variable 
query_cache_wlock_invalidate variable 
queue scheduler 

queue tables 

queue time 

quicksort 

R 

R-Tree indexes 

Rackspace Cloud 


RAID 


balancing hardware and software 
configuration and caching 
failure, recovery, and monitoring 
moving files from flash to 
not for backup 
performance optimization 
splits 
with SSDs 
RAND() function 
random read-ahead 
random versus sequential I/O 
RANGE COLUMNS type 
range conditions 
raw file 
backup 
restoration 


RDBMS technology 


RDS (Relational Database Service) 
read buffer size 

READ COMMITTED isolation level 
read locks 

read threads 

READ UNCOMMITTED isolation level 
read-ahead 

read-around writes 

read-mostly tables 

read-only variable 

read-write splitting 

read_buffer_size variable 
Read_Master_Log_Pos 
read_rnd_buffer_size variable 

real number data types 


rebalancing shards 


records_in_range() function 
recovery 

from a backup 

defined 

defining requirements 

more advanced techniques 
recovery point objective (RPO) 
recovery time objective (RTO) 
Red Hat 
Redis 
redundancy, replication-based 
Redundant Array of Inexpensive Disks (see RAID) 
redundant indexes 
ref column 


Relational Database Index Design and the Optimizers (Lahdenmaki & 
Leach) 


Relational Database Service (RDS), Amazon 


relay log 
relay-log.info file 
relay_log variable 
relay_log_purge variable 
relay_log_space_limit variable 
RELEASE_LOCK() function 
reordering joins 
REORGANIZE PARTITION command 
REPAIR TABLE command 
repairing MyISAM tables 
REPEATABLE READ isolation level 
replica hardware 
replica shutdown, unexpected 
replicate_ignore_db variable 
replication 

administration and maintenance 


advanced features in MySQL 


backing up configuration 

and capacity planning 

changing masters 

checking consistency of 

checking for up-to-dateness 
configuring master and replica 
creating accounts for 

custom solutions 

filtering 

how it works 

initializing replica from another server 
limitations 

master and multiple replicas 

master, distribution master, and replicas 
master-master in active-active mode 


master-master in active-passive mode 


master-master with replicas 
measuring lag 

monitoring 

other technologies 

problems and solutions 
problems solved by 
promotions of replicas 
recommended configuration 
replica consistency with master 
replication files 

resyncing replica from master 
ring 

row-based 

sending events to other replicas 
setting up 

speed of 


splitting reads and writes in 


Starting the replica 
statement-based 
status 
switching master-master configuration roles 
topologies 
tree or pyramid 
REPLICATION CLIENT privilege 
REPLICATION SLAVE privilege 
replication-based redundancy 
RESET QUERY CACHE command 
RESET SLAVE command 
resource consumption 
response time 
restoring 
defined 


logical backups 


RethinkDB 

ring replication 

ROLLBACK command 
round-robin database (RRD) files 
row fragmentation 

row locks 

ROW OPERATIONS 
row-based logging 

row-based replication 

rows column 

rows examined, number of 
rows returned, number of 
ROW_COUNT command 
RPO (recovery point objective) 
RRDTool 

rsync 


RTO (recovery time objective) 


running totals and averages 
S 
safety and sanity settings 
Sahibinden.com 
SandForce 
SANs (storage area networks) 
sar 
sargs 
SATA SSDs 
scalability 
by clustering 
by consolidation 
frequency 
and load balancing 
mathematical definition 


multiple CPUs/cores 


planning for 
preparing for 
“scale-out” architecture 
scaling back 
scaling out 
scaling pattern 
scaling up 
scaling writes 
Sphinx 
universal law of 
scalability measurements 
ScaleArc 
ScaleBase 
ScaleDB 
scanning data 
scheduled tasks 


schemas 


changes 

design 

normalized and denormalized 
Schooner Active Cluster 
scope 
scp 
search engine, selecting the right 
search space 
searchd, Sphinx 
secondary indexes 
security, connection management 
sed 
segmented key cache 
segregating hot data 
SELECT command 


SELECT FOR UPDATE command 


SELECT INTO OUTFILE command 

SELECT types 

selective replication 

selectivity, index 

select_type column 

SEMAPHORES 

sequential versus random I/O 

sequential writes 

SERIALIZABLE isolation level 

serialized writes 

server 
adding/removing 
configuration, backing up 
consolidation 
INFORMATION_SCHEMA database 
MySQL configuration 


PERFORMANCE SCHEMA database 


profiling and speed of 
server-wide problems 
setting optimization 
SHOW ENGINE INNODB MUTEX command 
SHOW ENGINE INNODB STATUS command 
SHOW PROCESSLIST command 
SHOW STATUS command 
status variables 
workload profiling 
server-side prepared statements 
service time 
session scope 
session-based splits 
SET CHARACTER SET command 
SET GLOBAL command 


SET GLOBAL SQL_SLAVE_SKIP_COUNTER command 


SET NAMES command 

SET NAMES utf8 command 

SET SQL_LOG_BIN command 

SET TIMESTAMP command 

SET TRANSACTION ISOLATION LEVEL command 
SET type 

SetLimits() function 
SetMaxQueryTime() function 
SeveralNines 

SHA1() function 

Shard-Query system 

sharding 

shared locks 

shared storage 

SHOW BINLOG EVENTS command 
SHOW commands 


SHOW CREATE TABLE command 


SHOW CREATE VIEW command 

SHOW ENGINE INNODB MUTEX command 
SHOW ENGINE INNODB STATUS command 
SHOW FULL PROCESSLIST command 
SHOW GLOBAL STATUS command 

SHOW INDEX command 

SHOW INDEX FROM command 


SHOW INNODB STATUS command (see SHOW ENGINE INNODB 
STATUS command) 


SHOW MASTER STATUS command 
SHOW PROCESSLIST command 
SHOW PROFILE command 

SHOW RELAYLOG EVENTS command 
SHOW SLAVE STATUS command 
SHOW STATUS command 

SHOW TABLE STATUS command 


SHOW VARIABLES command 


SHOW WARNINGS command 
signed types 

single-component benchmarking 
single-level cell (SLC) 
single-shard queries 
single-transaction variable 
skip_innodb variable 
skip_name_resolve variable 
skip_slave_start variable 
slavereadahead tool 
slave_compressed_protocol variable 
slave_master_info variable 
slave_net_timeout variable 
Slave_open_temp_tables variable 
SLC (single-level cell) 


Sleep state 


SLEEP() function 
sleeping before entering queue 
slots 

slow queries 
SMALLBLOB type 
SMALLINT type 
SMALLTEXT type 
Smokeping tool 
snapshots 

Solaris SPARC hardware 
Solaris ZFS filesystem 
solid-state drives (SSD) 
solid-state storage 

sort buffer size 

sort optimizations 
sorting 


sort_buffer_size variable 


Souders, Steve 

SourceForge 

SPARC hardware 

Spatial indexes 

Sphinx 
advanced performance control 
applying WHERE clauses 
architectural overview 
efficient and scalable full-text searching 
filtering 
finding top results in order 
geospatial search functions 
installation overview 
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天 于 作者 





Baron Schwartz 是 一 位 软件 工程 师 ， 居 住 在 弗吉尼亚 州 的 
Charlottesville， 网 络 常用 名 是 Xaprb， 这 是 按照 QWERTY 键 盘 的 顺序 在 
Dvorak 键 盘 上 打出 来 的 名 字 。 在 不 忙于 解决 有 趣 的 编程 挑战 时 ，Baron 
会 和 他 的 妻子 Lynn 以 及 小 狗 Carbon 一 起 享受 闲暇 的 时 光 。 他 有 一 个 软件 
工程 方面 的 博客 ， 地 址 是 http:/www.xaprb.com/blog/ 





Peter ”Zaitsev 曾 经 是 MySQL AB 公司 高 性 能 组 的 经 理 ， 目 前 在 运 
作 mysqlperformance ”blog.com 网 站 。 他 擅长 于 帮助 那些 每 天 有 数 以 百 万 
计 访 问 量 的 网 站 的 管理 员 解 决 问题 ， 这 些 网 站 通常 需要 几 百 台 机 器 来 处 
理 TB 级 的 数据 。 他 常常 为 了 解决 一 个 问题 而 不 停 地 升级 硬件 和 软件 
《比如 查询 优化 ) 。Peter 还 经 常 在 各 种 会 议 上 演讲 。 








Vadim Tkachenko 兽 经 是 MySQL AB 公 司 的 性 能 工程 师 。 作 为 一 名 
在 多 线程 编程 和 同步 方面 的 专家 ， 他 的 主要 工作 是 基准 测试 、 性 能 剖 
析 ， 以 及 找 出 系统 的 性 能 瓶 宽 。 他 还 在 性 能 监控 和 调 优 方 面 做 了 一 些 工 
作 ， 使 得 MySQL 在 多 核 机 器 上 有 更 好 的 可 扩展 性 。 





封面 说 明 
KEHEE EE (sparrow hawk) , <4 #5 


(Accipiternisus) 。 它 是 猫 鹰 家 族 的 一 名 成 员 ， 生 活 在 欧 亚 大 陆 和 北非 
的 树林 里 。 稚 认 有 着 长 长 的 尾巴 和 短小 的 翅膀 : HES KEN, A 
浅 标 色 的 胸部 ， 雌 乌 大 多 数 是 标 灰 色 的 ， 胸 部 几乎 是 纯 白 色 。 雄 乌 〈11 








英寸 ) 的 体型 通常 比 肉 鸟 (15 类 寸 ) 要 小 一 些 。 


省 麻生 活 在 针 叶 林 中 ， 以 小 型 哺乳 动物 、 昆 虫 和 乌 类 为 食 。 它 们 的 
巢 一 般 筑 在 树 上 ， 有 时 甚至 在 悬 炭 峭 壁 上 。 每 年 复 初 ， 在 位 于 最 高 的 树 
的 主干 上 的 梨 里 ， 雌 乌 会 产 下 四 到 六 颗 白 中 略 带 一 些 红色 和 标 色 的 蛋 ; 
雄 乌 则 负责 给 雌 乌 和 幼 乌 们 喂食 。 








和 所 有 的 磨 一 样 ， 稚 鹰 也 具有 在 飞行 时 高 速 傈 冲 的 能 力 。 无 论 是 展 
翅 高 飞 还 是 盘旋 滑翔 时 ， 人 省 订 都 会 有 带 痢 明显 特征 的 拍 逆 一 拍 翅 一 清 行 
的 动作 ; 它 的 大 尾巴 使 其 能 够 轻松 地 盘旋 和 转 刁 ， 从 容 地 出 入 树林 之 
间 。 














封面 图 片 是 一 幅 19 世 纪 的 雕版 画 ， 出 自 Dover Pictorial Archive. 
译 者 简介 


宁海 元 ”有 超过 十 年 的 数据 库 管理 经 验 ， 从 最 初 的 SQL Server 2000 
到 Oracle 再 到 MySQL， 擅 长 数据 库 高 可 用 架构 、 性 能 优化 和 故障 诊断 。 
2007 年 加 入 淘宝 ， 带 领 淘宝 DBA 团 队 完 成 了 数据 库 的 垂直 拆 分 、 水 平 拆 
分 ， 迁 移 到 MySQL 体 系 等 主要 工作 ， 为 淘宝 业务 的 快速 增长 提供 文 
。 目 前 专注 于 无 线 数据 领域 。 网 络 常用 名 NinGoo， 个 人 博 


: http:/www.ningoo.net 








R HE 


周 振兴 “毕业 于 北京 师范 大 学 数学 系 ，2009 年 加 入 淘宝 数据 库 团 
队 ， 负 贡 MySQL 运 维 管理 工作 ， 有 丰富 的 MySQL 性 能 优化 、 
Troubleshooting 经 验 ， 对 MySQL 主 要 模块 的 实现 和 原理 有 深入 的 研究 ， 
经 历 了 淘宝 MySQL 实 例 从 30 到 3000 的 发 展 ， 对 系统 架构 、 高 可 用 环境 
规划 都 有 深入 理解 。 个 人 博客 : http:/orczhou.com 


彭 立 勋 ”2010 年 大 学 毕业 后 加 入 阿里 巴巴 运 维 部 。 作 为 一 名 
MySQL DBA， 在 运 维 MySQL 的 过 程 中 对 MySQL 和 InnoDB 的 一 些 功 能 
和 人 缺陷 进行 了 补充 ， 编 写 了 多 主 复制 和 数据 内 回 等 补丁 。 目 前 在 阿里 集 
团 核 心 系统 研发 部 数据 库 组 ， 专 注 于 MySQL 数 据 库 相关 的 开发 工作 。 
后 来 一 些 补丁 被 MySQL 之 父 Mony 看 中 ， 多 主 复 制 、 线 程 内 存 监控 等 补 
本 被 合并 到 了 MariaDB 10.0 版 本 ， 本 人 也 因此 成 为 MariaDB 提 区 组 


(Maria-captains) 成 员 。 





性 卫 祥 。” 毕业 于 武汉 大 学 ， 研 究 生 阶段 从 事 数 据 库 相 关 研 究 。 毕 业 
后 就 职 于 阿里 巴巴 集团 数据 库 技 术 团 队 至 今 ， 主 要 负责 阿里 内 部 
MySQL 代 码 分 支 维护 ， 包 括 MySQL Bug Fix 及 新 特性 开发 。 对 MySQL 
内 核 有 一 定 的 研究 。 


刘辉 ”2008 年 毕业 于 西安 电子 科技 大 学 计算 机 系 ， 硕 士 学 位 。2011 
年 加 入 阿里 巴巴 集团 数据 库 技术 团队 ， 花 名 希 羽 ，MySQL 内 核 开 发 工 
程 师 。 


